AUTORO

OpenAIの動画生成AI「Sora(ソラ)」概要と作例まとめ【最速】

2024年2月16日、対話型AI「ChatGPT」の開発元であるOpenAIが、最新の動画生成AI「Sora(ソラ)」を発表しました。今回はその概要と、生成された動画の作例をまとめていきます。

Sora(ソラ)とは?

出典:Sora 

Sora(ソラ)は、対話型AIのChatGPTや画像生成AIのDALL Eシリーズなどを開発・提供するOpenAIが、新たに発表した動画生成AIです。単純なテキストプロンプト(呪文)を入力するだけで、最長1分間の動画が生成できます。

Soraの公式サイトに、実際の生成動画とテキストプロンプトが何点か公開されています。例えばこちら(動画は公式サイトからご覧ください)で使われたのは以下のプロンプトです。

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

スタイリッシュな女性が、暖かく輝くネオンとアニメーションの街の看板で満たされた東京の通りを歩いています。彼女は黒い革のジャケット、赤い長いドレス、黒いブーツを着ており、黒い財布を持っています。彼女はサングラスと赤い口紅をつけています。彼女は自信を持って何気なく歩いています。通りは湿っていて反射しており、色とりどりの光の鏡効果を生み出しています。多くの歩行者が歩き回っています。

見覚えのある東京の夜、雨上がりの街並み。特にネオンの照明や看板が反射する濡れた道路がリアルで、AIが生成したものとは思えないクオリティです。看板の文字を見ると支離滅裂になっており、この部分でAI生成かそうでないかの判断はつきそうです。

女性のサングラスに反射している街並みも、細かく表現されています。

OpenAIの最高経営責任者であるサム・アルトマン氏は、自身のXでユーザーからリプライで募集したプロンプト通りの生成動画を複数ポストしており、その品質を証明しています。

『sora ができることをお見せしたいと思います。見たいビデオのキャプションを返信してください。作成を開始します。』

Sam Altman (@sama) / X

Soraは2024年2月16日に公表され、現在は一部のユーザーのみアクセス可能。未だ研究段階のため一般利用は開始されておらず、テストユーザーのフィードバックをもとに機能改善を進めていくようです。

Sora(ソラ)の性能

Soraは単にテキストを理解するわけではない

Soraの公式サイトでは以下のように述べられています。

Sora は、複数のキャラクター、特定の種類のモーション、被写体と背景の正確な詳細を含む複雑なシーンを生成できます。モデルは、ユーザーがプロンプトで何を要求したかだけでなく、それらのものが物理世界にどのように存在するのかも理解します。

Sora is able to generate complex scenes with multiple characters, specific types of motion, and accurate details of the subject and background. The model understands not only what the user has asked for in the prompt, but also how those things exist in the physical world.

つまりSoraは、これまで登場してきた他の動画生成AIが生成するような単純な動画ではなく、複数のキャラクター、特定の動き、被写体や背景が詳細に設定された複雑なシーンを生成できるということです。

また「それらのものが物理世界にどのように存在するのかも理解できる」という点に関して言えば、Soraは単に与えられた指示(呪文、プロンプト)の内容を理解するだけでなく、それを現実世界の物理的な法則(立体構造)や背景と照らし合わせて考慮することができる、と言えます。

例えば、ユーザーが「海辺で波が打ち寄せる風景を描いてください」という指示を与えたとします。この場合、Soraは単に「海辺で波が打ち寄せる」という指示だけでなく、その風景が現実の海岸線でどのように見えるかを理解します。

つまり、波がどのように形成され、どのように海岸に打ち寄せるか、周囲の景色や天候にどのように影響されるかなどの物理的な要素も考慮して、動画を生成するということです。

その結果、生成される動画は、リアルな海辺の風景を、より現実に近しく表現可能になるということです。

Soraは一貫性のある動画を生成可能

先ほども述べたように、Soraは単にテキストを理解して動画を生成するわけではありません。そのため、人物やキャラクターなどに関して、それらの感情表現(表情)までリアルな質感で表現することができます。

動画の一貫性、例えば人物の顔や体の部分など不自然のなりがちな要素に関しても、Soraは一貫して、それを保持したまま表現できます。

Sora(ソラ)の生成動画とプロンプト例

ここからは、サム・アルトマン氏が自身のXで投稿しているSoraが自動生成した動画と、元となるテキストプロンプトをまとめていきます。

「とんがり帽子と白い星が付いた青いローブを着た魔法使いが、手から稲妻を放つ呪文を唱え、もう一方の手には古い本を持っている」

プロンプト原文:a wizard wearing a pointed hat and a blue robe with white stars casting a spell that shoots lightning from his hand and holding an old tome in his other hand

「半分アヒル、半分ドラゴンが冒険装備を着たハムスターを背中に乗せて美しい夕日の中を飛んでいます。」①

プロンプト原文:A half duck half dragon flies through a beautiful sunset with a hamster dressed in adventure gear on its back

「半分アヒル、半分ドラゴンが冒険装備を着たハムスターを背中に乗せて美しい夕日の中を飛んでいます。」②

プロンプト原文:A half duck half dragon flies through a beautiful sunset with a hamster dressed in adventure gear on its back

「自然と調和し、同時にサイパーパンク/ハイテクな未来都市を巡るストリートレベルのツアー。街は清潔で、最先端の未来的な路面電車、美しい噴水、いたるところに巨大なホログラムがあり、ロボットがいたるところにあるべきです。未来から来た人間のツアーガイドが地球外エイリアンのグループに、人間が建設できる最もクールで最も輝かしい都市を案内するビデオを作成します。」

プロンプト原文:A street-level tour through a futuristic city which in harmony with nature and also simultaneously cyperpunk / high-tech.

The city should be clean, with advanced futuristic trams, beautiful fountains, giant holograms everywhere, and robots all over.

Have the video be of a human tour guide from the future showing a group of extraterrestial aliens the coolest and most glorious city that humans are capable of building.

「火星の日没時の未来的なドローン レース」

プロンプト原文:a futuristic drone race at sunset on the planet mars

「山の頂上でポッドキャストをする 2 頭のゴールデンレトリバー」

プロンプト原文:Two golden retrievers podcasting on top of a mountain

「映画のような照明のある素朴なトスカーナの田舎のキッチンで、ソーシャル メディア インフルエンサーのおばあちゃんが主催する自家製ニョッキの調理指導セッション」

原文:A instructional cooking session for homemade gnocchi hosted by a grandmother social media influencer set in a rustic Tuscan country kitchen with cinematic lighting

「ドローンカメラの視点で自転車に乗るアスリートとして、さまざまな動物が登場する海上の自転車レース」

プロンプト原文:A bicycle race on ocean with different animals as athletes riding the bicycles with drone camera view

Sora(ソラ)ができること

OpenAIによるSoraのレポートを元に、Soraができることをご紹介します。現時点で確認できる、Soraの基本的な機能は以下の通りです。

  • テキストから動画生成(Text to Video)
  • 動画サイズの調整
  • 静止画の動画化(Image to Video)
  • 既存動画の拡張(Video to Video)
  • 既存動画内の要素の置換(Video to Video)
  • 複数の動画をシームレスに繋げる(Video to Video)
  • 画像生成
  • 様々なシミュレーションへの応用

それぞれ見ていきましょう。

テキストから動画生成(Text to Video)

Soraはテキストプロンプトを入力するだけで、その指示通りの動画を自動生成できます。単にテキストを理解するだけではなく、その文脈を理解し、現実世界とリンクさせた一貫性のある、リアルな動画生成が可能です。

動画サイズの調整

出典:Video generation models as world simulators 

Soraは、ワイドスクリーン横画面(1920x1080p)、縦画面(1080×1920)、正方形それぞれのサイズで、品質を維持したまま動画を生成できます。これにより、様々なデバイスに対応した動画を制作することができます。

静止画の動画化(Image to Video)

Soraは静止画を動画化することができます。例えば、動物の写真、フラットなキャラクターデザイン、テキストを含むアニメーションなど、様々なコンテンツに対応可能です。

既存動画の拡張(Video to Video)

Soraは、既存の動画の時間的な前後を読み取り、動画を延長することができます。これにより、最初と最後が繋がるループ動画も簡単に作成することができます。

既存動画内の要素の置換(Video to Video)

Soraは、既存動画の中の一部分だけを編集できます。背景を変更したり、時代や季節など意味的な要素の置換にも対応可能です。

複数の動画をシームレスに繋げる(Video to Video)

出典:Video generation models as world simulators 

Soraは、全く異なるテーマの2つの動画を、シームレスに繋げることができます。例えば、「歴史的建造物の中をドローンが飛んでいる動画」と、「サンゴが広がる海底を蝶が飛んでいる動画」を組み合わせ、「蝶が海底都市の中を飛んでいる動画」を生成することができます。

画像生成

Soraは最大で2048×2048サイズの、高品質な画像生成が可能です。

様々なシミュレーションへの応用

Soraは多岐にわたるシミュレーションで応用可能です。具体例は以下の通りです。

3D(立体感)の一貫性

Soraはダイナミックなカメラモーションを含むビデオを生成できます。カメラが移動したり回転したりすると、人物やシーンの要素が3次元空間内で一貫して移動し、フレーム外でもそれを保持できます。

長距離のコヒーレンスとオブジェクトの永続性

長いビデオをサンプリングする際の時間的一貫性を維持することが重要です。Soraは短距離と長距離の両方の依存関係を効果的にモデル化し、例えば、人や動物が遮られたりフレームから外れたりしても、それらを保持できます。

物理的・時間的な変化

Soraは、様々な状態変化をシミュレートできます。例えば、絵描きがキャンバスに絵を描く過程や、男性がハンバーガーを食べて噛み跡を残したりする様子を表現できます。

デジタル世界

Soraは、ビデオゲームなどの人工的な世界をシミュレートすることもできます。例えば、Minecraftのプレイヤーを制御しながら、世界とそのダイナミクスを高い忠実度でレンダリングすることができます。

Sora(ソラ)の課題

Soraはあくまで開発中の段階であり、「現行モデルには弱点がある」とされ、その弱点が2点挙げられています。

まず、複雑なシーンの、物理的な動作や結果を正確に再現する難しさです。例えば、ガラスの粉砕を表現できなかったり、人がクッキーをかじった後、クッキーに噛み跡が残らない場合があったりするとのことです。

出典:Video generation models as world simulators 

次に、指示の中の空間的・時間的な文脈理解です。空間における「左右」を混同したり、例えば定点カメラで撮影する映像のような時間経過を適切に表現できなかったりします。

以上よりSoraの現時点での課題は物理的・空間的・時間的な、動作や変化、結果などの理解であると言えます。

Sora(ソラ)の勢いに目が離せない!

Soraは現在テストユーザーにのみ利用可能な、OpenAI開発の動画生成AIです。今後開始されるであろう一般公開も見据えて、最新情報を見逃さないよう引き続きチェックしていきましょう。

生成AIについての詳しい資料はこちら

生成AIについて独自にまとめた資料を無料でダウンロードいただけます。
2023年の生成AIトレンドから2024年のAI動向予想まで、活用例を含めてご紹介しています。

この記事を書いた人

Ayuka
Ayuka

2023年3月〜オートロに従事し、現在は主にAI系の記事制作と公式X(@autoro_io)の運用を担当。初心者目線で親しみやすい記事作りを心がけています。趣味は日本全国のグルメマップを作ることで、行ってみたいお店の数が全国3000を突破しました。新潟生まれ新潟育ち。