OpenAI presenta GPT-4o: un salto adelante en la interacción multimodal de IA en tiempo real
Summary:
OpenAI ha presentado un nuevo modelo de IA, GPT-4o, un chatbot avanzado capaz de procesar y responder a entradas de audio, visuales y de texto en tiempo real. Las demostraciones de la tecnología mostraron sus diversas capacidades, desde ayudar a los usuarios en diversas tareas, como la preparación de entrevistas, hasta detectar las emociones de los usuarios. Se espera que el modelo, que supera significativamente a las herramientas de IA anteriores de OpenAI, estimule interacciones más naturales entre humanos y computadoras. Su lanzamiento comenzó el 13 de mayo, comenzando con entradas de texto e imagen, y las actualizaciones de entrada de voz y video se lanzarán en las próximas semanas.
OpenAI, el creador de ChatGPT, ha presentado su última oferta de IA, GPT-4o, un compañero de chat de IA más conversacional y asombrosamente humano que puede analizar y reaccionar a las entradas de audio y visuales del usuario en tiempo real. Una serie de demostraciones proporcionadas por la compañía revelan que GPT-4 Omni ayuda a los usuarios potenciales en diversas tareas, incluida la preparación visual para una entrevista de trabajo, el contacto con el servicio de atención al cliente para reemplazar un iPhone y la evaluación de un juego de piedra, papel o tijera entre dos personas. Incluso se mostró al chatbot de IA haciendo chistes de papá, traduciendo conversaciones bilingües en tiempo real y respondiendo ingeniosamente, como se exhibió en una de las demostraciones cuando se presentó al cachorro de un usuario por primera vez.
OpenAI presentó formalmente GPT-4o, un modelo avanzado con capacidades de interacción auditiva, visual y textual en tiempo real: https://t.co/MYHZB79UqN
El despliegue de las entradas de texto e imagen en API y ChatGPT comienza hoy, y las actualizaciones de voz y vídeo seguirán en las próximas semanas. pic.twitter.com/uuthKZyzYx— OpenAI (@OpenAI) 13 de mayo de 2024
"Es similar a la IA que se ve en las películas, y todavía estoy un poco sorprendido por su realidad", confesó el CEO de OpenAI, Sam Altman, en una publicación de blog fechada el 13 de mayo. "Lograr tiempos de respuesta y expresividad similares a los humanos es todo un hito". El 13 de mayo, se lanzó inicialmente una versión de solo entrada de texto e imagen, y la versión completa está programada para lanzarse en las próximas semanas, según la declaración de OpenAI en una publicación reciente de X. Tanto los usuarios gratuitos como los de pago de ChatGPT tendrán acceso a GPT-4o desde la API de ChatGPT. La "o" en GPT-4o significa "omni", lo que indica un salto hacia modos más naturales de interacción entre humanos y computadoras.
GPT-4o supera los límites de la innovación de la IA al procesar simultáneamente entradas de texto, audio e imágenes, una mejora histórica con respecto a las herramientas de IA anteriores de OpenAI, como ChatGPT-4, que comúnmente "dejaban una cantidad significativa de información" sobre la mesa cuando se les asignaba la tarea de realizar múltiples tareas. OpenAI expresa que "GPT-4o supera a los modelos anteriores en términos de comprensión auditiva y visual", incluida la detección de las emociones y los patrones de respiración de los usuarios. También es "significativamente más rápido" y "un 50% menos costoso" en comparación con GPT-4 Turbo en la API de OpenAI. OpenAI afirma que la herramienta de IA recién lanzada puede responder a las entradas de audio en tan solo 2,3 segundos, con un promedio de aproximadamente 3,2 segundos, lo que se ajusta a la duración típica de la respuesta humana en una conversación cotidiana.
Published At
5/14/2024 3:32:23 AM
Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.
Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal?
We appreciate your report.