Me viciei muito rápido no Luzia, link acima.
Quando foi lançado eu podia falar para ela, pedir para transcrever, e a AI divina não apenas transcrevia para texto o que eu falei, como colocar as pontuações corretas e inclusive melhorava um pouco o texto, deixando ele levemente mais claro e tirando gaguejadas minha (quando voce começa a falar uma palavra e extendeeee, e troca a palavra).
Era perfeito.
E tiraram isso.
Existe algum software assim no windows, conhecem?
O reconhecimento de voz nativo do OS é podre demais, e o Copilot é, como sempre, absolutamente inútil :/
Tinha implementado um bot de whatsapp pra fazer isso usando a API do Watson da IBM
Microsoft Word faz maravilhosamente bem, separando o texto em falas de cada locutor. É fantástico!
Confesso que nunca usei, mas uma amiga que é tradutora só trabalha com ele:
https://support.microsoft.com/pt-br/office/transcreva-suas-gravações-7fc2efec-245e-45f0-b053-2a97531ecf57
wow… aqui me impressionei. Não pensei que haveria diferença entre o que o windows 11 escuta (atalho windows + H) e o office, portanto não tinha tentado no office…..
windows 11 (opção de pontuação automática está ativa)
“Está estou tentando de novo é a segunda vez estou falando essa mesma porcaria sua inteligência especial de uma figa vamos ver se tu consegue botar ponto virgula essas coisas me devolve o visto como um texto por favor Exatamente como falei isso possível estou achar que é melhor reescrever eu deixo pra ti”
Word, ditando. Tempo real e atende muito, muito bem na pratica.
“Tá? Tô tentando de novo. É segunda vez, tô falando a mesma porcaria. Sua inteligência oficial de uma figa. Vamos ver se consegue botar ponto, vírgula, essas coisa. Essas coisas me devolve como um texto, por favor, exatamente como eu falei, e se possível, se achar melhor escrever a deste para ti.”
Word, upload de mp3
“Tá, estou tentando de novo, é a segunda vez que estou falando essa mesma porcaria. Sua inteligência artificial de uma fica. Vamos ver se tu consegue botar pronto, vírgula, essas coisas, me devolve isso como um texto, por favor, exatamente como eu falei, se for possível, se tu achar que é melhor reescrever, eu deixo para ti.”
A LuzIA deve usar o Whisper, o modelo de linguagem da OpenAI. (A maioria das ferramentas de transcrição e reconhecimento de linguagem modernas tem usado ele.)
Tem duas soluções no Brasil que conheço e me parecem boas: Reshape (tem desconto para assinantes do Manual) e Escriba, do Aos Fatos.
Quem usa macOS, tem o MacWhisper. A versão gratuita já funciona super bem.
escriba (muito bom)
Tá, tô tentando de novo. É a segunda vez que eu tô falando sobre essa porcaria. Sua inteligência especial do Mafia, cara. Vamos ver se tu consegue botar ponto, vírgula, todas essas coisas. Me devolve isso como um texto, por favor. Exatamente como eu falei, se for possível. Se tu achar que é melhor reescrever, eu deixo pra ti.
reshape (quase-perfeito)
Tá, tô tentando de novo. É a segunda vez que eu tô falando sobre essa porcaria. Sua inteligência especial de uma figa. Vamos ver se tu consegue botar ponto, vírgula, todas essas coisas. Me devolve isso como um texto, por favor. Exatamente como eu falei, se for possível. Se tu achar que é melhor reescrever, eu deixo pra ti.
https://github.com/Const-me/Whisper tenta esse
tá tô tentando de novo é a segunda vez que eu tô falando essa mesma porcaria sua
inteligência especial duma fica como vê se tu consegue botar pronto o Vigo todas essas coisas
me devolve isso como um texto por favor exatamente como eu falei se for possível
se tu achar que é melhor reescrever eu deixo pra ti
Parece que o modelo que você usou não é suficiente pra transcrever certo, pelo menos em português.
Qual você usou?
ggml-medium.bin
Por um momento, achei que estivesse ofendendo o Alexandre gratuitamente. Custei entender que era uma transcrição. kkkkkk
tem alguns bots no telegram que fazem isso, por exemplo, o https://t.me/transcriber_bot
É exatamente essa opção que eu uso e que tem sido mais prática na objetivo de transcrever os áudios que eu mesmo gravo. Infelizmente não achei prático subir algum outro arquivo de áudio, em mp3 por exemplo