Novo sistema de fones com inteligência artificial identifica vozes em grupo, traduz em tempo real e simula o tom de cada pessoa, oferecendo uma experiência mais natural e fluida em diferentes idiomas.
Em breve, será possível se comunicar com pessoas de vários idiomas diferentes sem aprender o idioma dels. Esse é o objetivo de um novo sistema de fones de ouvido com inteligência artificial.
Chamado de Spatial Speech Translation, ele traduz falas de múltiplas pessoas, em tempo real, com base na direção da voz e nas características únicas de cada orador.
Tecnologia para romper barreiras linguísticas
O projeto foi desenvolvido por pesquisadores da Universidade de Washington, nos Estados Unidos.
-
Nova tecnologia que você vai querer ter na sua casa imprime solar em mochilas e celulares
-
Adesivo revolucionário promete energia solar em qualquer superfície e transforma parede, carro, janela e mais, em solar
-
Tecnologia que promete revolucionar o setor de energia renovável: Novo solar transparente transforma janelas e tela de celular em geradores de energia
-
Conheça o motor de 3 cilindros mais insano da história: 400 cv e pesa só 40 kg
A ideia surgiu de experiências pessoais, como conta o professor Shyam Gollakota. “Minha mãe tem ideias incríveis quando fala em telugo, mas é difícil para ela se comunicar com as pessoas nos EUA quando nos visita”, diz. “Acreditamos que esse sistema pode transformar a vida de pessoas como ela.”
Ao contrário de outras soluções que focam em apenas um falante, o novo sistema reconhece e traduz múltiplas vozes ao mesmo tempo.
Além disso, evita o som artificial comum em outras traduções automáticas. Ele funciona com fones de ouvido com cancelamento de ruído e microfones comuns, conectados a um laptop com chip M2 da Apple, o mesmo usado no Vision Pro.
A apresentação do projeto aconteceu este mês na conferência ACM CHI on Human Factors in Computing Systems, em Yokohama, no Japão.
Como o sistema funciona
O Spatial Speech Translation usa dois modelos de inteligência artificial. O primeiro divide o espaço ao redor do usuário em pequenas áreas e localiza as fontes sonoras com base em redes neurais.
O segundo modelo traduz as falas de idiomas como francês, alemão e espanhol para o inglês, além de simular o tom e o estilo de voz de cada falante.
Isso permite que o som traduzido pareça vir da mesma direção do orador original e com uma voz muito parecida com a dele, em vez de um som genérico de máquina. A tecnologia usa bases de dados públicas para realizar as traduções e simulações de voz.
Samuele Cornell, pesquisador da Carnegie Mellon University, destaca a complexidade da tarefa. “Separar vozes humanas já é difícil para sistemas de IA. Fazer isso em tempo real e com baixa latência é impressionante”, afirma. Embora não tenha participado do projeto, ele considera os primeiros resultados bastante promissores.
Desafios ainda persistem
Mesmo com os avanços, o sistema ainda enfrenta desafios. O principal deles é o tempo de resposta entre a fala e a tradução. Hoje, há um pequeno atraso, e a equipe de Gollakota quer reduzir esse tempo para menos de um segundo.
“O objetivo é manter a fluidez da conversa entre pessoas de diferentes idiomas”, explica o pesquisador. No entanto, essa redução no tempo pode afetar a precisão da tradução, segundo especialistas.
Isso ocorre porque, quanto mais contexto a IA tem, melhor é a tradução. Menos tempo pode significar menos qualidade.
A velocidade também varia conforme o idioma. A tradução do francês para o inglês é mais rápida. O espanhol vem em seguida, e o alemão é o mais lento entre os três. Isso se deve à estrutura das frases. No alemão, por exemplo, o verbo costuma vir no fim, o que atrasa a interpretação da mensagem.
Uma aplicação promissora
Para Alina Karakanta, professora da Universidade de Leiden, na Holanda, e especialista em linguística computacional, o sistema tem grande potencial. Ela não participou do estudo, mas acredita que ele pode ter impacto positivo. “É uma aplicação útil. Pode ajudar as pessoas”, afirma.
A tradução em tempo real ainda é um campo em evolução. Modelos de linguagem mais avançados já melhoraram bastante os resultados nos últimos anos.
Em aplicativos como o Google Tradutor ou ferramentas como o ChatGPT, idiomas com muitos dados disponíveis já são traduzidos com excelente qualidade. No entanto, ainda não é algo totalmente instantâneo.
O sistema apresentado agora dá um o a mais. Ele combina localização espacial, identificação de voz e tradução simultânea. Tudo isso com som mais natural e personalizado.
O futuro da comunicação sem barreiras
O projeto mostra um caminho promissor para o uso da inteligência artificial em interações humanas. A possibilidade de entender várias pessoas falando idiomas diferentes, ao mesmo tempo, pode transformar reuniões internacionais, encontros familiares e situações cotidianas em ambientes multilíngues.
Mas, como lembra o pesquisador Claudio Fantinuoli, da Universidade Johannes Gutenberg, na Alemanha, ainda há limitações técnicas a superar. “É preciso equilibrar velocidade e precisão. Esperar mais traz mais contexto, mas reduz a fluidez”, explica.
A equipe continua trabalhando para aprimorar o sistema. Se conseguir reduzir o tempo de resposta e manter a qualidade da tradução, o Spatial Speech Translation pode se tornar uma ferramenta essencial para quebrar barreiras linguísticas no mundo todo.