OpenAI revela GPT-4o: um salto em frente na interação de IA multimodal em tempo real
Summary:
A OpenAI introduziu um novo modelo de IA, o GPT-4o, um chatbot avançado capaz de processar e responder a entradas de áudio, visual e texto em tempo real. Demonstrações da tecnologia mostraram suas diversas capacidades, desde auxiliar os usuários em várias tarefas, como a preparação de entrevistas, até detectar as emoções dos usuários. Espera-se que o modelo, que supera significativamente as ferramentas de IA anteriores da OpenAI, estimule interações mais naturais entre humanos e computadores. Seu lançamento começou em 13 de maio, começando com entradas de texto e imagem, e atualizações de entrada de voz e vídeo serão lançadas nas semanas seguintes.
A OpenAI, criadora do ChatGPT, revelou sua mais recente oferta de IA, a GPT-4o, um companheiro de bate-papo de IA amplamente conversacional e estranhamente humano que pode analisar e reagir às entradas de áudio e visual do usuário em tempo real. Uma série de demonstrações fornecidas pela empresa revela que o GPT-4 Omni auxilia usuários em potencial em várias tarefas, incluindo se preparar visualmente para uma entrevista de emprego, entrar em contato com o atendimento ao cliente para uma substituição do iPhone e julgar um jogo de pedra-papel-tesoura entre dois indivíduos. O chatbot de IA chegou a ser mostrado entregando piadas de pai, traduzindo conversas bilíngues em tempo real e respondendo de forma espirituosa, como exibido em uma das demonstrações quando foi apresentado ao filhote de um usuário pela primeira vez.
A OpenAI apresentou formalmente o GPT-4o, um modelo avançado com habilidades de interação áudio, visual e textual em tempo real: https://t.co/MYHZB79UqN
O lançamento para entradas de texto e imagem na API e no ChatGPT começa hoje, com as atualizações de voz e vídeo a seguir nas próximas semanas. pic.twitter.com/uuthKZyzYx— OpenAI (@OpenAI) 13 de maio de 2024
"É semelhante à IA que você vê nos filmes, e ainda estou um pouco assustado com sua realidade", confessou o CEO da OpenAI, Sam Altman, em um post no blog datado de 13 de maio. "Alcançar tempos de resposta e expressividade semelhantes aos humanos é um marco." Em 13 de maio, uma versão somente de entrada de texto e imagem foi lançada inicialmente, com a versão completa programada para ser lançada nas próximas semanas, de acordo com a declaração da OpenAI em um post recente do X. Os usuários gratuitos e pagos do ChatGPT terão acesso ao GPT-4o a partir da API do ChatGPT. O "o" no GPT-4o significa "omni", sinalizando um salto em direção a modos mais naturais de interação entre humanos e computadores.
O GPT-4o ultrapassa os limites na inovação de IA processando simultaneamente entradas de texto, áudio e imagem, uma melhoria histórica das ferramentas de IA anteriores da OpenAI, como o ChatGPT-4, que geralmente "deixava uma quantidade significativa de informações" na mesa quando encarregada de realizar várias tarefas. A OpenAI diz que "o GPT-4o supera os modelos anteriores em termos de compreensão áudio e visual", incluindo a detecção de emoções e padrões respiratórios dos usuários. Também é "significativamente mais rápido" e "50% mais barato" em comparação com o GPT-4 Turbo na API da OpenAI. A OpenAI afirma que a ferramenta de IA recém-lançada pode responder a entradas de áudio tão rapidamente quanto 2,3 segundos, com uma média de cerca de 3,2 segundos, de acordo com as durações típicas de resposta humana em uma conversa diária.
Published At
5/14/2024 3:32:23 AM
Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.
Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal?
We appreciate your report.