Marreta, novo quebrador de paywalls do PC do Manual, está no ar

O PC do Manual, nosso servidor de aplicações de código aberto, ganhou um novo serviço: o quebrador de paywalls Marreta.

O Marreta substitui o antigo Parede, que era baseado em um projeto pronto, o Ladder. (O novo nome faz mais sentido, né?) Desenvolvido pelo Renan Altendorf, traz mais recursos, é mais informativo e está em desenvolvimento ativo e acelerado.

“Embora o Ladder seja uma alternativa open source interessante, senti a necessidade de explorar soluções em uma linguagem de programação que que tivesse mais confortável”, diz Renan. “Além disso, estava em uma fase de aprendizado com projetos como o Lerama e o Sintoniza, que me inspiraram a criar novas abordagens para resolver desafios similares.”

O Marreta é uma aplicação em PHP. Segundo seu criador, ela “faz uma requisição nos sites simulando alguns bots, com headers específicos, DNS, user agents — o mais próximo de um usuário comum — e, em seguida, guarda todo o código HTML original dessa pagina de forma compactada”. Algumas dessas palavras não estão na Bíblia, mas funciona!

Ele continua: “Ao acessar a página, existe um sistema de regras globais e específicas por domínios que remove elementos, scripts, classes, IDs e até mesmo escreve novos códigos personalizados.”

O mais importante é que funciona lindamente.

***

Existem várias formas de se usar o novo serviço. A mais simples é copiar o link da notícia que você não está conseguindo ler e colá-la no site do Marreta.

Também dá para agilizar esse processo editando o link da notícia. Digamos que você tenha batido no paywall de https://sitedojornal.com/noticia-qualquer. Para acessá-la via Marreta, edite o endereço, assim: marreta.pcdomanual.com/p/https://sitedojornal.com/noticia-qualquer.

Quer algo mais fácil ainda? Copie o bookmarklet no site do Marreta para os seus favoritos e ative-o com apenas um clique.

Para quem tem familiaridade com desenvolvimento, uma API REST é disponibilizada para integração a outros sistemas. Detalhes lá no site.

Em breve, teremos um robô no Bluesky. Joselito está desenvolvendo o código.


O Marreta derruba a maioria dos paywalls, mas não todos. Sites que sabemos não funcionar retornam uma mensagem de erro. Essa lista é atualizada de modo contínuo.

Note, ainda, que o Marreta não remove anúncios dos sites. O sistema apenas derruba paywalls.

O código está aberto no nosso GitHub. Contribuições de código, sugestões de melhorias e avisos de erros/problemas são bem-vindos.

A newsletter do Manual. Gratuita. Cancele quando quiser:

Quais edições extras deseja receber?


Siga no Bluesky, Mastodon e Telegram. Inscreva-se nas notificações push e no Feed RSS.

14 comentários

  1. Poderiam me dar exemplos de links de notícias do Valor Econômico e também do Nexo que não abrem pra vocês nem normalmente nem via Marreta?

    Até onde verifiquei, não há hard paywall em nenhum deles. O Valor Econômico pra mim abre tanto pelo Marreta quanto pela minha extensão. E o Nexo apenas coloca o conteúdo das notícias em um script embedded no HTML — trivial resolver isso.

      1. No Valor, são as que têm um cadeado na capa — esta, por exemplo.

        Ah, nesse caso aí realmente parece que não há nada mais escondido na página, nem request safado com o conteúdo da página em JSON. Vou investigar com mais calma.

        O Nexo é bizarro! A página inteira é um grande JavaScript. Como conseguiram fazer isso!?

        A web moderna é uma loucura, não é mesmo? O que mais me revolta nessa história é que por padrão, em vez de fazerem isso no lado do servidor, deixam pro cliente gastar energia/bateria/processamento. Em contraste, talvez você não saiba, mas o MdU abre em tempo de bala do outro lado do mundo, gastando praticamente zero processamento extra, e inclusive funciona com JS desligado. Não mexe muito senão estraga, Ghedin rsrs

        1. Em contraste, talvez você não saiba, mas o MdU abre em tempo de bala do outro lado do mundo, gastando praticamente zero processamento extra, e inclusive funciona com JS desligado. Não mexe muito senão estraga, Ghedin rsrs

          Sei muito bem e é intencional (e fruto de muito tempo gasto com detalhes 🥲) que ele funcione assim :)

      2. Resolvi o Valor Econômico:

        Original

        Extensão

        A solução é adicionar ‘/google/amp’ logo depois do domínio. Exemplo:

        Original:
        https://valor.globo.com/opiniao/assis-moreira/coluna/carrefour-lamenta-mas-o-dano-esta-feito.ghtml

        Alterado:
        https://valor.globo.com/google/amp/opiniao/assis-moreira/coluna/carrefour-lamenta-mas-o-dano-esta-feito.ghtml

        O layout vai ficar todo zoado, então uma opção é usar o modo de leitura do browser. Outra é usar minha extensão rsrs

  2. Muito bom!
    Agora, uma dúvida: Por que é tão difícil encontrar uma “marreta” para deburar o muro do valor.globo?
    Nunca encontrei algo que desse certo contra o paywall desse jornal

    1. O Nexo usa um “hard paywall”, ou seja, coloca o conteúdo atrás de login e senha. Não tem como burlar esse tipo de paywall.

  3. maravilha! senti que há um tempinho o parede não estava funcionando, esse era o motivo?

    e esperando uma integração para o firefox no celular (se já existir, avisem como faz, por favor)

    1. O Ladder, que era a base do Parede, estava há muito tempo sem atualizações. Como os sites com paywall melhoram a detecção dos quebradores de paywalls, vira uma briga de gato e rato. Provavelmente era por isso que ele não funcionava mais em alguns domínios em que, antes, funcionava.

      Bookmarklets funcionam no Firefox do celular? Se sim, é só salvá-lo nos favoritos e mandar ver.

  4. Fé que um dia vai existir um quebrador de paywall para o site do Valor Econômico