A OpenAI anunciou o lançamento de três novos modelos de inteligência artificial focados em voz. Essas novas IAs são capazes de raciocinar, traduzir e transcrever áudio simultaneamente à fala humana, prometendo criar experiências de voz mais naturais e com respostas inteligentes em tempo real. Os modelos já estão disponíveis para desenvolvedores através da API da OpenAI.
Os modelos em destaque são o GPT-Realtime-2, o GPT-Realtime-Translate e o GPT-Realtime-Whisper. O GPT-Realtime-2, em particular, demonstra capacidades de raciocínio comparáveis ao GPT-5. Ele foi projetado para gerenciar conversas complexas, compreendendo o contexto, lidando com interrupções e até mesmo acionando ferramentas externas enquanto mantém o diálogo. A IA é capaz de ajustar seu tom de voz dinamicamente, tornando-se mais calma em situações de frustração do usuário ou mais assertiva ao confirmar informações. Para evitar pausas que causem a sensação de que o sistema travou, o GPT-Realtime-2 utiliza frases de transição como “deixe-me verificar” ou “um momento” enquanto processa solicitações. Além disso, ele pode anunciar ações em voz alta, como “verificando sua agenda” ou “buscando essa informação agora”, e tem a capacidade de acionar múltiplas ferramentas simultaneamente.
Com uma janela de contexto de 128.000 tokens, o GPT-Realtime-2 permite conversas significativamente mais longas sem perda de coerência. O nível de raciocínio é configurável em cinco estágios, permitindo um equilíbrio entre velocidade e profundidade de análise, de acordo com a necessidade específica de cada aplicação.
O segundo modelo apresentado, o GPT-Realtime-Translate, é voltado para a tradução simultânea de voz. Ele suporta mais de 70 idiomas de entrada e traduz para 13 idiomas de saída, tudo em tempo real e acompanhando o ritmo do falante. Esta funcionalidade é ideal para atendimento ao cliente, plataformas educacionais, eventos ao vivo e qualquer cenário onde pessoas que falam idiomas diferentes precisem se comunicar sem interrupções.
A OpenAI enfatiza que a tradução ao vivo deve preservar o significado da mensagem, mantendo o ritmo do falante, mesmo diante de fala natural, mudanças de contexto ou variações regionais. Um exemplo de aplicação é a Deutsche Telekom, que está testando o modelo para permitir que seus clientes se comuniquem no idioma de sua preferência.
Por fim, o GPT-Realtime-Whisper é um modelo de transcrição que converte áudio em texto em tempo real. Sua utilidade se manifesta em legendas para apresentações ou transmissões ao vivo, oferecendo uma experiência mais rápida e natural ao reduzir a latência comum em legendas em tempo real. O modelo também é capaz de gerar notas e resumos durante as conversas, permitindo a criação de agentes de voz para diversos setores, como atendimento ao cliente, saúde, vendas e recrutamento.
Preço e Disponibilidade
Todos os três modelos estão acessíveis através da Realtime API da OpenAI. Para testes sem a necessidade de codificação, os usuários podem acessar diretamente o Playground da plataforma. Para integração em aplicações, a OpenAI oferece um ponto de partida através do Codex. Quanto aos custos, o GPT-Realtime-2 é precificado em 32 dólares por milhão de tokens de áudio de entrada e 64 dólares por milhão de tokens de saída. O GPT-Realtime-Translate tem um custo de 0,034 dólares por minuto, enquanto o GPT-Realtime-Whisper custa 0,017 dólares por minuto.
A OpenAI assegura que a API inclui camadas de segurança para interromper conversas que violem as políticas de uso.
