OpenAI enthüllt GPT-4o: Ein Sprung nach vorne in der multimodalen KI-Interaktion in Echtzeit
Summary:
OpenAI hat ein neues KI-Modell, GPT-4o, eingeführt, einen fortschrittlichen Chatbot, der in der Lage ist, Audio-, Bild- und Texteingaben in Echtzeit zu verarbeiten und darauf zu reagieren. Demonstrationen der Technologie zeigten ihre vielfältigen Fähigkeiten, von der Unterstützung der Benutzer bei verschiedenen Aufgaben wie der Vorbereitung von Vorstellungsgesprächen bis hin zur Erkennung von Benutzeremotionen. Das Modell, das die bisherigen KI-Tools von OpenAI deutlich übertrifft, soll natürlichere Mensch-Computer-Interaktionen fördern. Der Rollout begann am 13. Mai, beginnend mit Text- und Bildeingaben, und Sprach- und Videoeingabe-Updates werden in den folgenden Wochen veröffentlicht.
OpenAI, der Schöpfer von ChatGPT, hat sein neuestes KI-Angebot GPT-4o vorgestellt, einen dialogorientierteren und unheimlich menschenähnlichen KI-Chat-Begleiter, der sowohl akustische als auch visuelle Benutzereingaben in Echtzeit analysieren und darauf reagieren kann. Eine Reihe von Demonstrationen des Unternehmens zeigt, dass GPT-4 Omni potenzielle Benutzer bei verschiedenen Aufgaben unterstützt, darunter die visuelle Vorbereitung auf ein Vorstellungsgespräch, die Kontaktaufnahme mit dem Kundendienst für einen iPhone-Ersatz und die Beurteilung eines Schere-Stein-Papier-Spiels zwischen zwei Personen. Der KI-Chatbot wurde sogar gezeigt, wie er Vaterwitze lieferte, zweisprachige Gespräche in Echtzeit übersetzte und witzig reagierte, wie in einer der Demos zu sehen war, als er dem Welpen eines Benutzers zum ersten Mal vorgestellt wurde.
OpenAI hat GPT-4o offiziell vorgestellt, ein fortschrittliches Modell mit Fähigkeiten für audiovisuelle, visuelle und textuelle Interaktion in Echtzeit: https://t.co/MYHZB79UqN
Der Rollout für Text- und Bildeingaben in API und ChatGPT beginnt heute, die Sprach- und Video-Updates folgen in den kommenden Wochen. pic.twitter.com/uuthKZyzYx OpenAI (@OpenAI) 13. Mai 2024
"Es ähnelt der KI, die man in Filmen sieht, und ich bin immer noch ein bisschen erschrocken über ihre Realität", gestand Sam Altman, CEO von OpenAI, in einem Blogbeitrag vom 13. Mai. "Das Erreichen menschenähnlicher Reaktionszeiten und Expressivität ist ein ziemlicher Meilenstein." Am 13. Mai wurde zunächst eine reine Text- und Bildeingabeversion gestartet, wobei die vollständige Version in den kommenden Wochen veröffentlicht werden soll, wie OpenAI in einem kürzlich veröffentlichten X-Beitrag mitteilte. Sowohl kostenlose als auch kostenpflichtige ChatGPT-Benutzer haben über die ChatGPT-API Zugriff auf GPT-4o. Das "o" in GPT-4o steht für "Omni" und signalisiert einen Sprung hin zu natürlicheren Interaktionsmodi zwischen Mensch und Computer.
GPT-4o verschiebt die Grenzen der KI-Innovation, indem es gleichzeitig Text-, Audio- und Bildeingaben verarbeitet, eine bahnbrechende Verbesserung gegenüber den früheren KI-Tools von OpenAI wie ChatGPT-4, die bei Multitasking häufig "eine beträchtliche Menge an Informationen" auf dem Tisch ließen. OpenAI äußert, dass "GPT-4o frühere Modelle in Bezug auf das Audio- und visuelle Verständnis übertrifft", einschließlich der Erkennung von Emotionen und Atemmustern der Benutzer. Es ist auch "deutlich schneller" und "50 % günstiger" im Vergleich zu GPT-4 Turbo in der API von OpenAI. OpenAI behauptet, dass das neu eingeführte KI-Tool auf Audioeingaben in einer Zeit von nur 2,3 Sekunden antworten kann, was einem Durchschnitt von etwa 3,2 Sekunden entspricht und damit der typischen menschlichen Antwortdauer in einem alltäglichen Gespräch entspricht.
Published At
5/14/2024 3:32:23 AM
Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.
Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal?
We appreciate your report.