OpenAI تكشف النقاب عن GPT-4o: قفزة إلى الأمام في تفاعل الذكاء الاصطناعي متعدد الوسائط في الوقت الفعلي
Summary:
قدمت OpenAI نموذجا جديدا الذكاء الاصطناعي ، GPT-4o ، وهو روبوت محادثة متقدم قادر على معالجة المدخلات الصوتية والمرئية والنصية والاستجابة لها في الوقت الفعلي. عرضت العروض التوضيحية للتكنولوجيا قدراتها المتنوعة ، من مساعدة المستخدمين في مهام مختلفة مثل التحضير للمقابلة إلى اكتشاف مشاعر المستخدمين. ومن المتوقع أن يحفز هذا النموذج، الذي يتفوق بشكل كبير على أدوات الذكاء الاصطناعي السابقة ل OpenAI، المزيد من التفاعلات الطبيعية بين الإنسان والحاسوب. بدأ طرحه في 13 مايو ، بدءا من مدخلات النص والصور ، وسيتم إطلاق تحديثات إدخال الصوت والفيديو في الأسابيع التالية.
كشفت OpenAI ، مبتكر ChatGPT ، النقاب عن أحدث عروض الذكاء الاصطناعي ، GPT-4o ، وهي عبارة عن محادثة أكبر وشبيهة بالبشر بشكل غريب الذكاء الاصطناعي الدردشة التي يمكنها تحليل مدخلات المستخدم الصوتية والمرئية والتفاعل معها في الوقت الفعلي. تكشف سلسلة من العروض التوضيحية التي قدمتها الشركة أن GPT-4 Omni تساعد المستخدمين المحتملين في مهام مختلفة ، بما في ذلك التحضير لمقابلة عمل بصريا ، والاتصال بخدمة العملاء لاستبدال iPhone ، والحكم على لعبة مقص الورق الصخري بين شخصين. حتى أن روبوت الدردشة الذكاء الاصطناعي تم عرضه وهو يلقي نكات الأب ، ويترجم المحادثات ثنائية اللغة في الوقت الفعلي ، ويستجيب بذكاء ، كما هو موضح في أحد العروض التوضيحية عندما تم تقديمه إلى جرو المستخدم لأول مرة.
قدمت OpenAI رسميا GPT-4o ، وهو نموذج متقدم يتمتع بقدرات عبر التفاعل الصوتي والمرئي والنصي في الوقت الفعلي: https://t.co/MYHZB79UqN
يبدأ طرح مدخلات النص والصور في API و ChatGPT اليوم ، مع تحديثات الصوت والفيديو التي ستتبعها في الأسابيع المقبلة. pic.twitter.com/uuthKZyzYx— أوبن إيه آي (@OpenAI) 13 مايو 2024
"إنه أقرب إلى الذكاء الاصطناعي الذي تراه في الأفلام ، وما زلت مندهشا بعض الشيء من واقعه" ، اعترف الرئيس التنفيذي لشركة OpenAI ، سام ألتمان ، في منشور مدونة بتاريخ 13 مايو. "إن تحقيق أوقات استجابة وتعبير شبيه بالإنسان يعد علامة فارقة." في 13 مايو ، تم إطلاق نسخة إدخال النص والصور فقط في البداية ، ومن المقرر إصدار النسخة الكاملة في الأسابيع المقبلة ، وفقا لبيان OpenAI في منشور X الأخير. سيتمكن كل من مستخدمي ChatGPT المجانيين والمدفوعين من الوصول إلى GPT-4o من واجهة برمجة تطبيقات ChatGPT. يشير الحرف "o" في GPT-4o إلى "omni" ، مما يشير إلى قفزة نحو أنماط تفاعل أكثر طبيعية بين البشر وأجهزة الكمبيوتر.
يدفع GPT-4o الحدود في ابتكار الذكاء الاصطناعي من خلال معالجة مدخلات النص والصوت والصور في وقت واحد ، وهو تحسن بارز من أدوات الذكاء الاصطناعي السابقة ل OpenAI مثل ChatGPT-4 التي عادة ما "تترك قدرا كبيرا من المعلومات" على الطاولة عند تكليفها بمهام متعددة. أصوات OpenAI أن "GPT-4o يتفوق على النماذج السابقة من حيث الفهم الصوتي والمرئي" ، بما في ذلك اكتشاف مشاعر المستخدمين وأنماط التنفس. كما أنها "أسرع بكثير" و "أقل تكلفة بنسبة 50٪" مقارنة ب GPT-4 Turbo في واجهة برمجة تطبيقات OpenAI. تدعي OpenAI أن أداة الذكاء الاصطناعي التي تم إطلاقها حديثا يمكنها الرد على المدخلات الصوتية بسرعة تصل إلى 2.3 ثانية ، بمتوسط حوالي 3.2 ثانية ، بما يتوافق مع فترات الاستجابة البشرية النموذجية في محادثة يومية.
Published At
5/14/2024 3:32:23 AM
Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.
Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal?
We appreciate your report.