Live Chat

Crypto News

Cryptocurrency News 4 months ago
ENTRESRUARPTDEFRZHHIIT

OpenAI présente Sora : un modèle de conversion de texte en vidéo révolutionnaire aux capacités impressionnantes

Algoine News
Summary:
OpenAI a introduit un modèle de conversion de texte en vidéo, Sora, qui peut convertir des invites textuelles simples en vidéos détaillées de 60 secondes. À l’aide d’un modèle de « diffusion » similaire à son prédécesseur DALL-E 3, Sora génère une vidéo ou une image initiale ressemblant à du « bruit statique », qu’il affine progressivement. Malgré ses capacités, OpenAI a reconnu ses limites dans la représentation précise de la physique des scènes complexes et dans la compréhension des relations de cause à effet. Pour l’instant, l’accès à Sora a été accordé aux chercheurs en cybersécurité et aux artistes sélectionnés pour évaluation et commentaires. Plusieurs démonstrations des capacités de Sora ont circulé en ligne, suscitant un intérêt considérable.
OpenAI, un établissement d’intelligence artificielle de premier plan, vient de présenter son nouveau modèle de synthèse vidéo, Sora, qui, malgré les premières réactions positives, a encore de la place pour des améliorations. Sora, annoncé par OpenAI le 15 février, exploite les capacités de l’IA pour transformer des invites en texte brut en vidéos complexes, améliorer des vidéos préexistantes et même créer des scènes à partir d’une image statique. Sora est capable de produire des vidéos de 60 secondes remplies de détails riches, de nombreux personnages présentant des émotions vives et des mouvements de caméra complexes. Dans un article de blog publié le 15 février, OpenAI a rapporté que Sora peut construire des séquences similaires à une production cinématographique dans des qualités de résolution allant jusqu’à 1080p. Semblable au modèle antérieur centré sur l’image d’OpenAI, DALL-E 3, Sora utilise un modèle de « diffusion », dans lequel l’IA génère une vidéo ou une image initiale qui ressemble à du « bruit statique », puis l’affine en « éradiquant le bruit » progressivement. Selon OpenAI, le développement de Sora a été basé sur les enseignements tirés de leurs modèles précédents, GPT et DALL-E3, ce qui a apparemment amélioré la précision du modèle dans la mise en miroir des entrées de l’utilisateur. OpenAI a reconnu les limites existantes de Sora, telles que les difficultés à représenter correctement la physique de scènes complexes et à mal interpréter les relations de cause à effet. De plus, Sora pourrait mal comprendre et déformer les « spécificités spatiales » d’une invite, désalignant ainsi les directions ou ne respectant pas les descriptions précises. Pour l’instant, OpenAI a rendu Sora accessible uniquement aux « membres de l’équipe rouge », essentiellement des chercheurs en cybersécurité, afin de repérer les risques et les problèmes éventuels, ainsi qu’à certains concepteurs, artistes visuels et cinéastes sélectionnés pour fournir des commentaires en vue d’améliorations ultérieures. Une étude publiée par l’Université de Stanford en décembre 2023 a mis en évidence les dilemmes éthiques et juridiques critiques liés aux modèles de création d’images ou de vidéos qui utilisent des bases de données d’IA telles que LAION. Sora a suscité un buzz sur X, avec plus de 173 000 messages discutant du modèle et faisant circuler des démonstrations vidéo de ses capacités. Le PDG d’OpenAI, Sam Altman, a démontré son potentiel en générant des vidéos personnalisées selon les demandes des utilisateurs de X. Parmi les exemples, citons un canard à dos de dragon et des golden retrievers animant un podcast depuis le sommet d’une montagne. Plusieurs personnes, dont le commentateur de l’IA Mckay Wrigley, ont exprimé leur admiration devant les vidéos produites par Sora. Dans un article daté du 15 février sur X, le chercheur principal de Nvidia, Jim Fan, a affirmé sa conviction que Sora n’est pas simplement un jouet d’IA comme DALL-E 3, mais un « moteur physique axé sur les données » plus évolué, capable d’un rendu réaliste, d’une physique intuitive, d’un raisonnement à long horizon et d’une mise à la terre sémantique.

Published At

2/16/2024 8:56:53 AM

Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.

Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal? We appreciate your report.

Report

Fill up form below please

🚀 Algoine is in Public Beta! 🌐 We're working hard to perfect the platform, but please note that unforeseen glitches may arise during the testing stages. Your understanding and patience are appreciated. Explore at your own risk, and thank you for being part of our journey to redefine the Algo-Trading! 💡 #AlgoineBetaLaunch