A melhor maneira de transcrever áudios
Nigel Goodman usou o ditado do teclado de seu celular para escrever uma edição da sua newsletter, o que me lembrou de que nunca falei do Whisper neste Manual do Usuário.
Os sistemas de transcrição nativos dos celulares são passáveis, como se nota pela newsletter do Nigel. Ele usou o do Google. Eu, às vezes, uso o da Apple para escrever uma mensagem maior — dá o mesmo trabalho que gravar um áudio, aliás. Os resultados são bons; preciso editar só uma coisa ou outra, se muito.
Para transcrever áudios maiores, como uma edição de newsletter ou entrevistas (meu caso de uso), a melhor ferramenta disponível hoje é o Whisper, um modelo de IA da OpenAI criado para esse fim.
Descobriu-se muito tempo depois que o Whisper foi criado para transcrever vídeos do YouTube a fim de alimentar outras IAs da OpenAI. Estrago feito, só nos resta aproveitá-lo — o Whisper é aberto/livre para uso.
Por padrão, usar o Whisper demanda domínio da linha de comando ou de Python. Para facilitar, desenvolvedores terceiros lançaram interfaces gráficas para o modelo de transcrição.
A minha favorita é o app MacWhisper. Como o nome denuncia, é exclusivo para macOS. Tem um punhado de recursos, exporta para diversos formatos de texto (como legendas e podcasts) e é suave de usar.
O MacWhisper é freemium. Tenho a versão paga (de quando era beeeem mais barato; hoje, custa € 39), mas usei por muito tempo a gratuita e, para o básico, ela dá conta do recado.
Procurei por alternativas para Linux e Windows. Elas existem, mas não cheguei a testá-las. (Meu computador com Linux não tem interface gráfica e quanto ao Windows, só o tenho na lembrança.) O AlternativeTo lista várias delas. Se conhecer alguma e puder recomendá-la, comente no post.
E esse podcast (que é incrível), sobre o assunto:
https://vidadejornalista.podbean.com/e/ferramentas-para-transcrever-audio-em-texto-dicas-pra-vida/
O MacWhisper é uma mão na roda, não vivo mais sem ele, tive acesso a muitas aulas em diversos idiomas e conhecimentos que demorariam uma vida pra vir ao português.
Recomendo quem quiser que fique de olho no perfil do desenvolvedor no Twitter, sempre que tem desconto ele posta lá. A versão Pro do app até chegou a ficar gratuita em dezembro do ano passado pelo “Indie App Santa” então também é um lugar pra acompanhar se acontecer novamente.
Costumo usar o Pinpoint do Google, mas é uma luta pra conseguir acesso, precisa pedir autorização, explicar o que pretende fazer com a ferramenta etc., mas depois que entra é bastante prático.
https://journaliststudio.google.com/pinpoint/collections
Utilizo o Aiko, disponível para iOS e macOS, inclusive para transcrever áudios do WhatsApp (meu uso mais recorrente para esse tipo de app). Totalmente gratuito (sem modelo pago/freemium, ao menos por ora) e disponível na App Store de ambos os sistemas.
Eu uso o Gemini 1.5 Pro dentro do Google AI Studio, funciona muito bem e tem 2 milhões de tokens de limite, é muita coisa. Gratuito!
Gosto muito do Whisper. Apesar de não entender nada de programação, consegui instalar pra funcionar localmente no computador e deu tudo certo. A instalação dá menos trabalho do que parece. Na verdade, só segui um passo a passo. O uso na transcrição é mais simples ainda, só precisa memorizar um comando. 😉
Eu usei bastante o Transkriptor para transcrever palestras do YouTube no ano passado e gostei. É pago. Eu comprava 300 minutos por mês.
Pra Windows uso esse https://github.com/Const-me/Whisper
Foi muito bom pra transcrição de áudio da pesquisa de minha esposa. Um dos poucos usos que valem a pena pra IA…kkk