SeaArt Flow 2.0が正式にリリースされました。最近は様々な動画生成ツールが公開されてきていて分野の発展を感じますね。ということで本記事ではSeaArt Flow 2.0について解説します。

概要

SeaArt Flow 2.0 はSeaArt独自の動画生成モデルです。text to videoでは簡単なプロンプトから高品質な動画を生成することができます。前モデルとの共通のコンセプトとして、高い解像度、滑らかなカメラワーク、高いプロンプト応答性を誇ります。

前モデルとの大きな違いは動画と一緒にネイティブに音声も生成できるようになったことです。環境音や人の会話からBGMまで、動画の内容に合わせて自動的に音声も生成されます。

SeaArt Flow 2.0の主要な特徴

1.高度なプロンプト理解

SeaArt Flow 2.0は以前のモデルと比べてプロンプトの理解度が向上しており、複雑なプロンプトを正確に理解します。さらに、多言語プロンプト入力に対応しており、日常的で自然な言語で描写することができます。加えて、img to vid の場合は参考画像とプロンプトによるスタイル指定により、正確なスタイルの動画を生成できます。従来の動画生成モデルでは、アップロードした画像の雰囲気と生成された動画の雰囲気が微妙に違うことがあったと思いますが、SeaArt Flow 2.0 ではそんな悩みとはお別れできます。

2.音声と動画の同時生成

従来のモデルでは、動画と音声はそれぞれ別に生成してそれらを動画編集ツールで統合する必要がありました。結果として動画の内容と音声が噛み合わなかったり、雰囲気が一致しなかったりする問題点がありました。SeaArt Flow 2.0では動画と音声をネイティブに同時生成することによりこの問題を解決しました。地味なアップデートに見えますが、これは割と革命的です。対応する音声要素は以下の通りです。

キャラクター同士の会話
ナレーション
環境音
BGM
効果音

例えば、「賑やかなカフェでの会話」のシーンを作りたい場合、会話の様子だけではなくカップが置かれる音や周囲の喧騒などの音声も生成されます。特に会話においてはリップシンク(口の動きと音声の同期)も正確に行われるため、より自然な動画が生成されます。

3.プロ級のカメラワーク

SeaArt Flow 2.0では映画やドラマなどの映像作品で用いられるようなカメラワークを簡単なプロンプトで実装できます。私の実験結果では、このモデルは他のモデルと比較してカメラワークによるシーンの切り替えが非常に優れています。従来のモデルはカメラワークに関するプロンプト反応性が悪かったり、滑らかでないカメラワークの映像を出力することが多かったです。実際に使用できたカメラワークは以下の通りです。

パン(左右への移動)
ズームイン・アウト(拡大・縮小)
ドリー(前後への水平移動)
追跡ショット

この他にもダンスシーンでビートに合わせた動きやアクションシーンでの高速移動などの難しい動きにも対応しています。

4.キャラクターとシーンの一貫性

SeaArt Flow 2.0は連続するフレーム間で、キャラクターの外見や衣装、背景やオブジェクトなどのシーンの要素が一貫して表現されます。特に、従来のモデルではシーンの切り替えでキャラクターの特徴が失われることが多かったのに対してSeaArt Flow 2.0ではその問題が改善されています。

Flow 1.0との比較

ここで従来のモデルであるSeaArt Flow 1.0と比較してみましょう。上が1.0,下が2.0です。

両方とも全く同じプロンプトを使用しましたが、明らかに画質が違います。そもそもの画質にも圧倒的な差がありますが、カメラワークの差が顕著に出ました。

Text to VideoとImage to Video

SeaArt Flow 2.0にはText to VideoとImage to Videoの2種類の生成方法があります。順に解説します。

Text to Video 文章によるプロンプトのみで動画を生成する手法です。創作の手順は非常に簡単で、作りたい動画のコンセプトを考えてそれを記述するだけです。
Image to Video 既存の画像に動きを与えて動画にする方法です。創作にはText to Videoの手順の前に元になる画像をアップロードする必要があります。

それぞれの方法にはメリットとデメリットがあります。Text to Videoは元となる画像が必要ないので手軽に生成できます。さらに、風景や乗り物、機械などの写実的な要素を描写する場合はImage to Videoよりも高品質な動画が生成される傾向にあります。一方でImage to Videoは特定のアートスタイルを求めている場合や、特にアニメ系の動画の生成に強い傾向があります。これはおそらく、アニメ系のスタイルは言語化が難しいためであると考えられます。

プロンプトの書き方とコツ

基本的なプロンプト構造

高品質な動画の生成にはプロンプトの書き方が重要です。SeaArt Flow 2.0では動画内の各要素についてセクションに分けてプロンプトを記述することが推奨されています。効果的なプロンプトの構成要素は以下の通りです。

シーン：場所、時間、雰囲気の設定
キャラクター：人数、外見、服装、特徴
動作：キャラクターや物体の動き
光：照明効果、影の設定
音声：会話、環境音、BGMの指定
カメラ：撮影方法、アングル、構図
スタイル：アートスタイル、全体の雰囲気

この中から必要な要素に関するプロンプトを記述します。さらにImage to Videoの場合は元の画像を説明するプロンプトを追加するとより高品質な動画を得やすくなります。

高品質な動画のためのポイント

詳細な描写を心掛けるキャラクターや重要な要素についてはできるだけ具体的に描写しましょう。網の色や服装、体系など詳しく書くほどキャラクターの一貫性が強まり、意図したとおりの映像を生成しやすくなります。
一貫性の担保複数のショットがある動画の場合、各シーンに対するプロンプト間で要素の一貫性を保つ必要があります。前シーンと同じ詳細な描写が必要になります。
ショットの分割長いストーリーを論理的に繋がる短いシーンに分割し、それぞれに適切なプロンプトを作成します。

実践例

Scene: Neon-lit city streets at midnight, Tokyo-style urban environment with glowing billboards, wet asphalt reflecting colorful lights, empty wide boulevard.

Characters: Two high-performance sports cars - sleek red Ferrari with aggressive aerodynamics and matte black Lamborghini with sharp angular design, both with LED headlights cutting through darkness.

Action: Intense side-by-side racing at high speed, red car slightly ahead, both vehicles weaving between lanes, engines revving, exhaust flames visible, precise braking before sharp turn.

Audio: {environmental sounds: powerful V8 and V12 engine roars, tire grip on wet pavement, turbo whistling, distant city ambiance; background music: high-energy electronic synthwave with heavy bass; emotion: competition, speed, adrenaline rush}.

Camera: Low-angle tracking shot racing alongside both cars, then overhead drone view showing their positions, close-up of spinning wheels and glowing brake discs.

Style: Midnight street racing cinematic, neon cyberpunk aesthetic with motion blur and light trails.

注意点と制限事項

完成度の高いSeaArt Flow 2.0ですが、実は課題・制限があります。

長尺動画やマルチショット動画に関して動画の一貫性の維持は依然として課題です。一回の生成では8sが上限ですが、それでも完全な一貫性の保持には課題が残ります。ですが、これはプロンプトを詳細に記述することである程度の解決が可能です。
字幕に関する制限：動画内に字幕を挿入する場合、文字が歪んで崩れたり、判読困難になることがあります。また、セリフに字幕を充てる場合は音声と字幕が若干の不一致を起こすことがあります。

SeaArt Flow 2.0 解説

概要