OpenAI 推出 GPT-4o:实时多模态 AI 交互的飞跃
Summary:
OpenAI 推出了一种新的 AI 模型 GPT-4o,这是一种先进的聊天机器人,能够实时处理和响应音频、视频和文本输入。该技术的演示展示了其多样化的功能,从协助用户完成各种任务,如面试准备到检测用户的情绪。该模型的性能明显优于OpenAI以前的AI工具,预计将刺激更自然的人机交互。它于 5 月 13 日开始推出,从文本和图像输入开始,语音和视频输入更新将在接下来的几周内推出。
ChatGPT 的创建者 OpenAI 推出了其最新的 AI 产品 GPT-4o,这是一款对话性更强且非常像人类的 AI 聊天伴侣,可以实时分析和响应音频和视频用户输入。该公司提供的一系列演示显示,GPT-4 Omni 可以协助潜在用户完成各种任务,包括直观地准备工作面试、联系客户服务更换 iPhone 以及判断两个人之间的石头剪刀布游戏。人工智能聊天机器人甚至展示了爸爸的笑话,实时翻译双语对话,并机智地做出回应,正如其中一个演示中首次向用户的小狗介绍的那样。
OpenAI 正式展示了 GPT-4o,这是一种具有实时音频、视觉和文本交互能力的高级模型:https://t.co/MYHZB79UqN
API 和 ChatGPT 中的文本和图像输入从今天开始推出,语音和视频更新将在未来几周内跟进。pic.twitter.com/uuthKZyzYx—OpenAI (@OpenAI) 2024 年 5 月 13 日
“这类似于你在电影中看到的人工智能,我仍然对它的现实感到有点震惊,”OpenAI的首席执行官Sam Altman在5月13日的一篇博客文章中承认。“实现类似人类的响应时间和表现力是一个里程碑。”5 月 13 日,根据 OpenAI 在最近的 X 帖子中的声明,最初推出了仅文本和图像输入版本,完整版本计划在未来几周内发布。免费和付费 ChatGPT 用户都可以从 ChatGPT 的 API 访问 GPT-4o。GPT-4o 中的“o”代表“omni”,标志着人与计算机之间向更自然的交互模式的飞跃。
GPT-4o 通过同时处理文本、音频和图像输入来突破 AI 创新的界限,这是 OpenAI 之前的 ChatGPT-4 等 AI 工具的里程碑式改进,ChatGPT-4 在执行多任务任务时通常会“留下大量信息”。OpenAI 表示,“GPT-4o 在音频和视觉理解方面优于以前的模型”,包括检测用户的情绪和呼吸模式。与 OpenAI API 中的 GPT-4 Turbo 相比,它也“明显更快”和“便宜 50%”。OpenAI 声称,新推出的 AI 工具可以最快地回复 2.3 秒的音频输入,平均约为 3.2 秒,符合日常对话中典型的人类响应持续时间。
Published At
5/14/2024 3:32:23 AM
Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.
Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal?
We appreciate your report.