Google revela sistema de inteligência artificial que pode isolar uma voz no meio da multidão

Google revela sistema de inteligência artificial que pode isolar uma voz no meio da multidão

Por

13/04/18 às 12:23

Assim como a maioria das câmeras de smartphone permite que os usuários se concentrem em um único objeto, em breve poderá ser possível captar vozes individuais em uma multidão suprimindo todos os outros sons, graças a um novo sistema de Inteligência Artificial (AI) desenvolvido por pesquisadores do Google.

Este é um desenvolvimento importante, pois os computadores não são tão bons quanto os humanos ao focar sua atenção em uma pessoa em particular em um ambiente barulhento.

Conhecido como o efeito coquetel, a capacidade de “silenciar” mentalmente todas as outras vozes e sons é natural para nós humanos.

Miniatura do Vídeo
Play

No entanto, a separação automática de voz – separando um sinal de áudio em suas fontes de fala individuais – continua sendo um desafio significativo para os computadores, disseram Inbar Mosseri e Oran Lang, engenheiros de software do Google Research,

Em um novo artigo, os pesquisadores apresentaram um modelo audiovisual de aprendizagem profunda para isolar um único sinal de fala de uma mistura de sons como outras vozes e ruído de fundo.

“Neste trabalho, somos capazes de produzir computacionalmente vídeos em que a fala de pessoas específicas é aprimorada, enquanto todos os outros sons são suprimidos”, disse Mosseri e Lang.

O método funciona em vídeos comuns com uma única faixa de áudio, e tudo o que é necessário do usuário é selecionar o rosto da pessoa no vídeo que deseja ouvir ou ter essa pessoa selecionada algoritmicamente com base no contexto.

Os pesquisadores acreditam que esse recurso pode ter uma ampla gama de aplicações, desde aprimoramento e reconhecimento da fala em vídeos, até videoconferência, até aparelhos auditivos aprimorados, especialmente em situações em que há várias pessoas falando.

“Um aspecto único de nossa técnica é combinar os sinais auditivos e visuais de um vídeo de entrada para separar o discurso”, disseram os pesquisadores.

Intuitivamente, os movimentos da boca de uma pessoa, por exemplo, devem se correlacionar com os sons produzidos enquanto a pessoa está falando, o que, por sua vez, pode ajudar a identificar quais partes do áudio correspondem a essa pessoa.

O sinal visual não só melhora significativamente a qualidade da separação de fala em casos de fala mista, mas também, associa as faixas de fala separadas e limpas com as caixas de som visíveis no vídeo, disseram os pesquisadores.

Deixe seu comentário