Marreta, novo quebrador de paywalls do PC do Manual, está no ar
O PC do Manual, nosso servidor de aplicações de código aberto, ganhou um novo serviço: o quebrador de paywalls Marreta.
O Marreta substitui o antigo Parede, que era baseado em um projeto pronto, o Ladder. (O novo nome faz mais sentido, né?) Desenvolvido pelo Renan Altendorf, traz mais recursos, é mais informativo e está em desenvolvimento ativo e acelerado.
“Embora o Ladder seja uma alternativa open source interessante, senti a necessidade de explorar soluções em uma linguagem de programação que que tivesse mais confortável”, diz Renan. “Além disso, estava em uma fase de aprendizado com projetos como o Lerama e o Sintoniza, que me inspiraram a criar novas abordagens para resolver desafios similares.”
O Marreta é uma aplicação em PHP. Segundo seu criador, ela “faz uma requisição nos sites simulando alguns bots, com headers específicos, DNS, user agents — o mais próximo de um usuário comum — e, em seguida, guarda todo o código HTML original dessa pagina de forma compactada”. Algumas dessas palavras não estão na Bíblia, mas funciona!
Ele continua: “Ao acessar a página, existe um sistema de regras globais e específicas por domínios que remove elementos, scripts, classes, IDs e até mesmo escreve novos códigos personalizados.”
O mais importante é que funciona lindamente.
***
Existem várias formas de se usar o novo serviço. A mais simples é copiar o link da notícia que você não está conseguindo ler e colá-la no site do Marreta.
Também dá para agilizar esse processo editando o link da notícia. Digamos que você tenha batido no paywall de https://sitedojornal.com/noticia-qualquer. Para acessá-la via Marreta, edite o endereço, assim: marreta.pcdomanual.com/p/https://sitedojornal.com/noticia-qualquer.
Quer algo mais fácil ainda? Copie o bookmarklet no site do Marreta para os seus favoritos e ative-o com apenas um clique.
Para quem tem familiaridade com desenvolvimento, uma API REST é disponibilizada para integração a outros sistemas. Detalhes lá no site.
Em breve, teremos um robô no Bluesky. Joselito está desenvolvendo o código.
O Marreta derruba a maioria dos paywalls, mas não todos. Sites que sabemos não funcionar retornam uma mensagem de erro. Essa lista é atualizada de modo contínuo.
Note, ainda, que o Marreta não remove anúncios dos sites. O sistema apenas derruba paywalls.
O código está aberto no nosso GitHub. Contribuições de código, sugestões de melhorias e avisos de erros/problemas são bem-vindos.
Poderiam me dar exemplos de links de notícias do Valor Econômico e também do Nexo que não abrem pra vocês nem normalmente nem via Marreta?
Até onde verifiquei, não há hard paywall em nenhum deles. O Valor Econômico pra mim abre tanto pelo Marreta quanto pela minha extensão. E o Nexo apenas coloca o conteúdo das notícias em um script embedded no HTML — trivial resolver isso.
No Valor, são as que têm um cadeado na capa — esta, por exemplo.
O Nexo é bizarro! A página inteira é um grande JavaScript. Como conseguiram fazer isso!?
Ah, nesse caso aí realmente parece que não há nada mais escondido na página, nem request safado com o conteúdo da página em JSON. Vou investigar com mais calma.
A web moderna é uma loucura, não é mesmo? O que mais me revolta nessa história é que por padrão, em vez de fazerem isso no lado do servidor, deixam pro cliente gastar energia/bateria/processamento. Em contraste, talvez você não saiba, mas o MdU abre em tempo de bala do outro lado do mundo, gastando praticamente zero processamento extra, e inclusive funciona com JS desligado. Não mexe muito senão estraga, Ghedin rsrs
Sei muito bem e é intencional (e fruto de muito tempo gasto com detalhes 🥲) que ele funcione assim :)
Resolvi o Valor Econômico:
Original
Extensão
A solução é adicionar ‘/google/amp’ logo depois do domínio. Exemplo:
Original:
https://valor.globo.com/opiniao/assis-moreira/coluna/carrefour-lamenta-mas-o-dano-esta-feito.ghtml
Alterado:
https://valor.globo.com/google/amp/opiniao/assis-moreira/coluna/carrefour-lamenta-mas-o-dano-esta-feito.ghtml
O layout vai ficar todo zoado, então uma opção é usar o modo de leitura do browser. Outra é usar minha extensão rsrs
Eita, as imagens ficaram minúsculas. Corrigido:
Original:
https://postimg.cc/6775GRYy
Extensão:
https://postimg.cc/4Y2xdwvD
Muito bom!
Agora, uma dúvida: Por que é tão difícil encontrar uma “marreta” para deburar o muro do valor.globo?
Nunca encontrei algo que desse certo contra o paywall desse jornal
Boa parte do conteúdo do Valor fica atrás de login e senha, aí não tem como burlar. É o mesmo “problema” do Nexo, citado abaixo.
O Nexo Jornal segue sem funcionar
O Nexo usa um “hard paywall”, ou seja, coloca o conteúdo atrás de login e senha. Não tem como burlar esse tipo de paywall.
maravilha! senti que há um tempinho o parede não estava funcionando, esse era o motivo?
e esperando uma integração para o firefox no celular (se já existir, avisem como faz, por favor)
O Ladder, que era a base do Parede, estava há muito tempo sem atualizações. Como os sites com paywall melhoram a detecção dos quebradores de paywalls, vira uma briga de gato e rato. Provavelmente era por isso que ele não funcionava mais em alguns domínios em que, antes, funcionava.
Bookmarklets funcionam no Firefox do celular? Se sim, é só salvá-lo nos favoritos e mandar ver.
TOP
Fé que um dia vai existir um quebrador de paywall para o site do Valor Econômico