ChatGPT agora é capaz de falar com usuários e ver imagens

Publicado em 26/09/23 às 16:14

A OpenAI revelou hoje uma série de atualizações empolgantes para o ChatGPT, com ênfase nas melhorias na interação dos usuários com a inteligência artificial. Estas atualizações marcam um avanço significativo na evolução desta tecnologia, ampliando suas capacidades e tornando-a mais acessível e versátil.

Uma das adições mais notáveis é o controle por voz, uma funcionalidade que permitirá aos usuários interagirem com o ChatGPT usando comandos verbais. Essa adição é um marco importante, pois oferece uma experiência mais intuitiva e natural, quase como se estivessem interagindo com uma assistente virtual de carne e osso. No entanto, o que diferencia este desenvolvimento é o compromisso da OpenAI em não apenas permitir que a IA fale, mas também em garantir respostas mais precisas, fruto de melhorias substanciais na tecnologia subjacente.

A empresa revelou que as melhorias no controle por voz são impulsionadas por dois componentes-chave. O primeiro é o Whisper, um sistema desenvolvido pela OpenAI que converte palavras faladas em texto com grande precisão. O segundo é um novo modelo de texto para fala capaz de gerar áudio que se assemelha à voz humana a partir de texto simples e breves amostras de fala. Essa inovação na tecnologia de texto para fala já está resultando em colaborações interessantes, incluindo uma parceria com o Spotify para traduzir podcasts para diversos idiomas, mantendo intactas as vozes originais dos apresentadores.

Contudo, a OpenAI não ignora os potenciais perigos associados às vozes sintéticas e promete uma abordagem cautelosa. A empresa planeja restringir a disponibilidade do controle por voz a parcerias cuidadosamente selecionadas para garantir o uso responsável dessa tecnologia.

Outra funcionalidade empolgante que será introduzida no ChatGPT é a busca de imagens. Com esse recurso, os usuários poderão simplesmente tirar uma foto de qualquer objeto, cena ou item de seu interesse, e o chatbot analisará a imagem para fornecer informações relevantes ou responder a perguntas relacionadas à imagem. Isso abre possibilidades fascinantes para a pesquisa e interação.

Além disso, a plataforma oferecerá uma ferramenta de desenho versátil, permitindo que os usuários complementem suas imagens com perguntas faladas ou digitadas, tornando a experiência ainda mais dinâmica e interativa.

A OpenAI também divulgou detalhes sobre a disponibilidade dessas atualizações. O controle por voz estará disponível tanto para dispositivos iOS quanto Android, enquanto a busca de imagens será acessível em todas as plataformas. A empresa planeja disponibilizar essas atualizações para os usuários Plus e Enterprise nas próximas duas semanas, enquanto outros grupos de usuários, incluindo desenvolvedores, podem esperar ter acesso a essas funcionalidades em breve.