Sora (ソラ)は、OpenAI が開発したtext-to-videoモデル (英語版 ) である。このモデルは、ユーザーのプロンプト に基づいて短い動画クリップを生成 するほか、既存の短い動画を拡張することも可能である。Soraは2024年12月にChatGPT PlusおよびChatGPT Proユーザー向けに一般公開された[ 1] 。
歴史
Sora以前にも、Meta のMake-A-Video、Runway (英語版 ) のGen-2、Google のLumiereといったテキストから動画を生成するモデルが開発されており、Lumiereは2024年2月時点でも研究段階にある[ 2] 。Soraを開発したOpenAI は、2023年9月にtext-to-imageモデルのDALL-E 3 をリリースした企業でもある[ 3] 。
Soraを開発したチームは、その「無限の創造力」を表すために、モデルに日本語の「空 」という語句にちなんで「Sora」と名付けた[ 4] 。2024年2月15日、OpenAIはSoraが生成した高解像度の動画クリップを複数公開し、最初のプレビューを実施した。公開された動画には、山道を走るSUV 、ろうそくの隣にいる「短くてふわふわしたモンスター」のアニメーション、雪の中を東京 で歩く二人、そしてカリフォルニア・ゴールドラッシュ の偽の歴史映像が含まれており、最大1分間の動画を生成できると発表した[ 2] 。その後、モデルのトレーニング手法を詳述した技術報告書が共有された[ 5] [ 6] 。また、OpenAIのCEOであるサム・アルトマン はX でユーザーのプロンプトに応じてSoraが生成した動画を投稿した。
OpenAIは、将来的にSoraを一般公開する計画を示しているが、具体的な時期は明言しておらず、すぐに公開する予定はないと述べた[ 2] [ 7] 。同社は、誤情報やバイアスの専門家を含む少数の「レッドチーム 」に限定的なアクセスを提供し、モデルに対する敵対的テスト (英語版 ) を行った[ 3] 。また、動画制作者やアーティストを含む少数のクリエイティブな専門家にも共有し、創造的分野での有用性についてのフィードバックを求めた[ 8] 。
2024年11月24日、Hugging Face で、テスターグループによってSoraのAPI キーが流出し、テスターグループは、Soraが「アートウォッシング (英語版 ) 」に使用されていると主張し、抗議する声明を発表した。このAPIキーは流出から3時間以内にOpenAIによってアクセスが取り消された。OpenAIは声明で「数百人のアーティスト」が開発に貢献しており、「参加は任意」であると述べた[ 9] 。
能力と限界
Soraが生成した、ベッドに人が横たわりその隣に猫が乗っている動画(ハルシネーション がある)
Soraの技術は、DALL-E 3の技術を応用したものである。OpenAIによれば、Soraは拡散トランスフォーマーであり[ 10] 、デノイズ型潜在拡散モデル で、Transformer がデノイザーとして機能する。動画は、3D「パッチ」をデノイズして潜在空間で生成され、その後、ビデオデコンプレッサーによって標準空間に変換される。 再キャプション付けは、video-to-textモデルを使用して、動画に詳細なキャプションを作成することで、トレーニングデータを補強 (英語版 ) するために使われる[ 6] 。
OpenAIは、一般に公開されている動画と、目的のためにライセンスされた著作権保護された動画を使用してモデルをトレーニングしたが、具体的な数やソースについては明かしていない[ 4] 。OpenAIは、発表時にSoraの限界についても認めており、複雑な物理現象のシミュレーションや因果関係 の理解、左右の区別が苦手であると述べている[ 11] 。例えば、オオカミの子オオカミの集団が増殖して収束する場面が、理解しにくいシナリオを作り出すことがある[ 12] 。また、OpenAIは、既存の安全慣行に従い、性的、暴力的、憎悪的、さらに有名人や既存の知的財産 を含む内容のプロンプトを制限すると発表した[ 3] 。
Soraの研究者であるティム・ブルックスは、モデルがデータセットだけで3Dグラフィックス を生成する方法を習得したと述べている。同じくSoraの研究者であるビル・ピーブルズは、モデルがプロンプトなしで異なるビデオアングルを自動的に作成したと述べた[ 2] 。OpenAIによれば、Soraが生成した動画には、AIで生成したことを示すC2PAメタデータ (英語版 ) がタグ付けされている[ 4] 。
反応
MIT Technology Review のウィル・ダグラス・ヘブンは、デモ動画を「印象的」と評価する一方で、選別されたものであり、Soraの典型的な出力を代表していない可能性があると指摘した[ 8] 。アメリカの学者オーレン・エツィオーニ (英語版 ) は、この技術が政治キャンペーンにおけるオンライン上の偽情報 の作成に使われる可能性について懸念を表明した[ 4] 。同様にWired のスティーブン・レヴィ (英語版 ) は、誤情報の温床となる潜在的な危険性を指摘し、プレビュークリップについては「印象的だが完璧ではない」と述べ、「映画的な文法を芽生えさせた」点を評価した。しかし、「テキストから動画を生成する技術が実際の映画制作を脅かすのは、仮にその時が来るとしても、非常に長い時間がかかるだろう」とも述べた[ 2] 。CNET のリサ・レイシーは、例示動画を「人間の顔が近くで映る場面や海洋生物が泳ぐ場面を除けば、驚くほどリアル」と評した[ 3] 。
映画監督のタイラー・ペリー は、Soraが映画業界に与える潜在的な影響への懸念を理由に、自身がアトランタ に計画していたスタジオの8億ドル規模の拡張を保留すると発表した[ 13] [ 14] 。
関連項目
脚注
出典
^ “Sora | OpenAI ” (英語). openai.com . 2024年12月9日 閲覧。
^ a b c d e Levy, Steven (February 15, 2024). “OpenAI's Sora Turns AI Prompts Into Photorealistic Videos” . Wired . オリジナル のFebruary 15, 2024時点におけるアーカイブ。. https://web.archive.org/web/20240215234655/https://www.wired.com/story/openai-sora-generative-ai-video/ February 16, 2024 閲覧。 .
^ a b c d “Meet Sora, OpenAI's Text-to-Video Generator ”. CNET (February 15, 2024). February 16, 2024時点のオリジナルよりアーカイブ 。February 16, 2024 閲覧。
^ a b c d Metz, Cade (February 15, 2024). “OpenAI Unveils A.I. That Instantly Generates Eye-Popping Videos” . The New York Times . オリジナル のFebruary 15, 2024時点におけるアーカイブ。. https://web.archive.org/web/20240215220626/https://www.nytimes.com/2024/02/15/technology/openai-sora-videos.html February 15, 2024 閲覧。
^ “Video generation models as world simulators ”. OpenAI (February 15, 2024). February 16, 2024時点のオリジナルよりアーカイブ 。February 16, 2024 閲覧。
^ a b Edwards, Benj (February 16, 2024). “OpenAI collapses media reality with Sora, a photorealistic AI video generator ” (英語). Ars Technica . February 17, 2024時点のオリジナルよりアーカイブ 。February 17, 2024 閲覧。
^ “OpenAI teases 'Sora,' its new text-to-video AI model ”. NBC News (February 15, 2024). February 15, 2024時点のオリジナルよりアーカイブ 。February 16, 2024 閲覧。
^ a b Heaven (February 15, 2024). “OpenAI teases an amazing new generative video model called Sora ”. MIT Technology Review . February 15, 2024時点のオリジナルよりアーカイブ 。February 15, 2024 閲覧。
^ “OpenAI Shuts Down Sora Access After Artists Released Video-Generation Tool in Protest: ‘We Are Not Your PR Puppets’ ”. Variety (November 27, 2024). 2 December 2024 閲覧。
^ Peebles, William; Xie, Saining (2023). “Scalable Diffusion Models with Transformers” . 2023 IEEE/CVF International Conference on Computer Vision (ICCV) . pp. 4172–4182. arXiv :2212.09748 . doi :10.1109/ICCV51070.2023.00387 . ISBN 979-8-3503-0718-4 . ISSN 2380-7504 . オリジナルのFebruary 17, 2024時点におけるアーカイブ。. https://openaccess.thecvf.com/content/ICCV2023/html/Peebles_Scalable_Diffusion_Models_with_Transformers_ICCV_2023_paper.html February 17, 2024 閲覧。
^ Pequeño IV, Antonio (February 15, 2024). “OpenAI Reveals 'Sora': AI Video Model Capable Of Realistic Text-To-Video Prompts” . Forbes . オリジナル のFebruary 15, 2024時点におけるアーカイブ。. https://web.archive.org/web/20240215220634/https://www.forbes.com/sites/antoniopequenoiv/2024/02/15/openai-reveals-sora-ai-video-model-capable-of-realistic-text-to-video-prompts/ February 15, 2024 閲覧。
^ “Sora-generated video of wolves playing with some video issues ”. ABC News Australia . 16 May 2024 閲覧。
^ Kilkenny, Katie (2024年2月23日). “Tyler Perry Puts $800M Studio Expansion on Hold After Seeing OpenAI's Sora: "Jobs Are Going to Be Lost" ” (英語). The Hollywood Reporter . February 26, 2024時点のオリジナルよりアーカイブ 。2024年2月26日 閲覧。
^ Edwards, Benj (2024年2月23日). “Tyler Perry puts $800 million studio expansion on hold because of OpenAI's Sora ” (英語). Ars Technica . February 26, 2024時点のオリジナルよりアーカイブ 。2024年2月26日 閲覧。
外部リンク
ウィキメディア・コモンズには、
Sora に関連するカテゴリがあります。
生成AI
会話型生成AI プログラム生成AI 画像生成AI 動画生成AI
特化型AI
カテゴリ