Bluesky, Mastodon, Telegram e RSS

Uma pequena ajuda para raspagem de texto na internet

Olar, queria pedir ajuda pro povo que entende das paradas de programação pois eu queria muito saber se uma boa alma poderia pegar todos os textos de um blog e me enviar em formato de texto.
O blog é esse:
https://web.archive.org/web/20120530053416/http://www.cinemaemcena.com.br/plus/modulos/listas/?tac=colunas&cid=5

Sou estudante de cinema e esse conteúdo é valiosíssimo, porem a versão nova do site não está mais com esse conteúdo online, entao queria uma ajuda de alguem de bom coração.

Obrigado

7 comentários

7 comentários

  1. Seriam os posts dessa coluna “Diário de Produção de Fernando Meirelles”? Eu acho que talvez os textos não estejam mais disponíveis. Você tentou voltar as páginas? Eu só consegui voltar 1 página, depois ele fala que não tem mais.

  2. Lembro de fazer isso via linha de comando no Linux com o wget.

    Mas teria que ser usuário Linux ou Mac

  3. Da uma verificada em Browse.ai , pode te ajudar.
    Ferramentas de automação como, Pabbly ou Make, também podem oferecer alguma solução.

  4. Peça pro ChatGPT elaborar um script em Python que faça esse scraping e exporte arquivos texto usando a biblioteca BeautifulSoup. Sugira que você vai obter o texto de várias URLs (provavelmente o script vai gerar uma variável em forma de lista). Depois jogue o scirpt no Google Colab e divirta-se.

  5. Eu tenho um software que faz uma varredura em um domínio, buscando arquivos de documentos, como PDF e outros. Mas ele não consegue pegar os posts, infelizmente.