A OpenAI apresentou três novos modelos de voz com inteligência artificial capazes de raciocinar, traduzir e transcrever em tempo real durante as conversas. A empresa afirma que esses modelos permitem a criação de experiências de voz mais naturais e com respostas mais inteligentes, em tempo real. Os três modelos já estão disponíveis para desenvolvedores através da API.
De acordo com uma publicação no site da OpenAI, os modelos em questão são GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper. O GPT-Realtime-2 é o mais notável, com capacidades de raciocínio equivalentes ao GPT-5. Ele pode lidar com conversas complexas, entender o contexto, gerenciar interrupções, chamar ferramentas externas e ajustar seu tom conforme a situação. Por exemplo, a IA pode responder com mais calma quando o usuário está frustrado ou aumentar o tom ao confirmar algo. O GPT-Realtime-2 também introduz frases de transição, como “deixe-me verificar isso”, para evitar silêncios que podem dar a impressão de que o sistema travou. Além disso, pode chamar várias ferramentas simultaneamente, anunciando em voz alta o que está fazendo, como “verificando sua agenda” ou “procurando essa informação agora”.
O GPT-Realtime-2 possui uma janela de contexto de 128.000 tokens, permitindo conversas mais longas sem que o modelo perca o fio da meada. O nível de raciocínio é configurável em cinco níveis, do mínimo ao muito alto, para equilibrar velocidade e profundidade conforme a necessidade.
Novos modelos da OpenAI raciocinam, traduzem e transcrevem conversas em tempo real
O segundo modelo, GPT-Realtime-Translate, foi desenvolvido para tradução de voz simultânea. Esta IA suporta mais de 70 idiomas de entrada e traduz para 13 idiomas de saída, tudo em tempo real e acompanhando o ritmo do falante. A OpenAI destaca seu uso em atendimento ao cliente, plataformas educacionais, eventos ao vivo e aplicativos onde pessoas que falam idiomas diferentes precisam se comunicar sem interrupções.
“A tradução ao vivo deve preservar o significado enquanto mantém o ritmo do falante, mesmo quando as pessoas falam naturalmente, mudam de contexto ou usam pronúncia regional e linguagem específica de domínio”, declarou a empresa.
A Deutsche Telekom já está testando o GPT-Realtime-Translate para permitir que seus clientes se comuniquem no idioma em que se sentem mais confortáveis.
Por fim, o GPT-Realtime-Whisper é um modelo de transcrição que converte áudio em texto em tempo real. Na prática, ele adiciona legendas a apresentações ou transmissões ao vivo, reduzindo a latência típica das legendas em tempo real, tornando-as mais rápidas e naturais. O GPT-Realtime-Whisper também pode gerar notas e resumos durante as conversas, sendo útil para agentes de voz que precisam entender os usuários continuamente, especialmente em áreas como atendimento ao cliente, saúde, vendas e recrutamento.
Preço e disponibilidade
Todos os três modelos estão disponíveis dentro da API Realtime da OpenAI. É possível testá-los diretamente na plataforma, sem a necessidade de escrever código, através do Playground. Para integrar os modelos em um aplicativo, a OpenAI oferece um ponto de partida através do Codex. Para utilizar o GPT-Realtime-2, o custo é de 32 dólares por milhão de tokens de áudio de entrada e 64 dólares por milhão de saída. O GPT-Realtime-Translate custa 0,034 dólares por minuto, e o GPT-Realtime-Whisper, 0,017 dólares por minuto.
A OpenAI assegurou que a API inclui camadas de segurança que podem interromper conversas caso detectem conteúdo que viole suas políticas de uso.
