O que essa matéria me fez pensar é que a quantidade e diversidade de línguas faladas no mundo (principalmente faladas) vai exigir muito aprimoramento do trabalho com IAs. Quem sabe seja um caminho também pra comunidades fora do ocidente dominante escapar um pouquinho da influência uniformizadora dos Googles e Microsofts da vida. A gente já se sente relativamente à vontade em um GPT falando e ouvindo o nosso português, mas e quanto a quem fala cabila, hauçá, guarani-mbya, wapichana etc. etc.?
Cara, eu acho o reconhecimento de voz, em pt.br mesmo, que o GPT faz no celular a coisa mais impressionante que já vi nisso.
Eu faço perguntas de forma natural, mudo a ideia no meio da pergunta com um “digo”, faço o “barulho de um cérebro idiota processando” no meio da pergunta (ahnnnn…..) enquanto…. processo a frase ( :/ ) e ele sempre entende correto.
Eu não me surpreenderia em descobrir que tem uma pessoa no outro lado digitando o que eu estou falando.
Acho que é a próxima fase evolutiva dos LLMs, não? O Gemini do Google é “multimodal”, o GPT-4 da OpenAI, também. A OpenAI, aliás, tem um sistema de reconhecimento de fala, o Whisper, que é fenomenal. Uso ele (uma versão pequena, com processamento local) para transcrever entrevistas.
Sobre o segundo problema que ele menciona, da localização, lembrei desta startup brasileira, a Carteiro Amigo Express. Nada a ver com IA (acho), só o desafio logístico em áreas periféricas/mal atendidas pelas soluções convencionais.
O que essa matéria me fez pensar é que a quantidade e diversidade de línguas faladas no mundo (principalmente faladas) vai exigir muito aprimoramento do trabalho com IAs. Quem sabe seja um caminho também pra comunidades fora do ocidente dominante escapar um pouquinho da influência uniformizadora dos Googles e Microsofts da vida. A gente já se sente relativamente à vontade em um GPT falando e ouvindo o nosso português, mas e quanto a quem fala cabila, hauçá, guarani-mbya, wapichana etc. etc.?
Cara, eu acho o reconhecimento de voz, em pt.br mesmo, que o GPT faz no celular a coisa mais impressionante que já vi nisso.
Eu faço perguntas de forma natural, mudo a ideia no meio da pergunta com um “digo”, faço o “barulho de um cérebro idiota processando” no meio da pergunta (ahnnnn…..) enquanto…. processo a frase ( :/ ) e ele sempre entende correto.
Eu não me surpreenderia em descobrir que tem uma pessoa no outro lado digitando o que eu estou falando.
Acho que é a próxima fase evolutiva dos LLMs, não? O Gemini do Google é “multimodal”, o GPT-4 da OpenAI, também. A OpenAI, aliás, tem um sistema de reconhecimento de fala, o Whisper, que é fenomenal. Uso ele (uma versão pequena, com processamento local) para transcrever entrevistas.
Sobre o segundo problema que ele menciona, da localização, lembrei desta startup brasileira, a Carteiro Amigo Express. Nada a ver com IA (acho), só o desafio logístico em áreas periféricas/mal atendidas pelas soluções convencionais.