ありがたいことに今回SeaArt及びWanチームからWan2.6のリリース前に先行アクセス権を頂いたので、実際にテストしてみました。本記事ではWan2.6の先行レビューを行います。先行アクセス権は貰いましたがプロモーション報酬は1ドルも受け取っていないので、今回も正直にレビューします。
0. 概要
Wan2.6はAlibabaグループのWanチームが開発した動画生成モデルで、Wan2.5の後継モデルです。Wan2.5の正式リリースが9月末だったことを考えるとWan2.6の開発は驚異的な早さです。Veo3.1に続くように控えめなナンバリングですが、実際の性能はどうなのでしょうか。
1. Wan2.5を振り返る
Alibabaに怒られないことを祈りつつ、軽く前モデルを振り返ってみましょう。Wan2.5はVeo3にコンセプトを被せたモデルで、基本的には安いVeo3としてのポジションを確立していました。ネイティブ音声統合生成に対応した数少ないモデルでVeo3の独占場を崩したことは記憶に新しいでしょう。現在ではいくつかのモデルが音声統合生成に対応していますが、Wanの良いところはそのアクセシビリティです。例えばSora2は音声統合生成に対応していますが、Sora2にアクセスする方法は限られています。Veo3は多くのプラットフォームで提供されていますが、コストが非常に高いです。その点でWan2.5は多くのプラットフォームで安価に提供されていますし、無料で使う方法も存在します。Veo3と戦える性能のモデルに手が届きやすいことはWan2.5の大きな価値の一つと言えるでしょう。
2. Wan2.6の進化ポイント
これも怒られないことを祈って書くと、正直なところWan2.6は革命的な進化とは言えません。何か業界に新しい機能をもたらすわけではないということです。ナンバリングが示す通りですね。とはいえ順当に性能が進化していますし、面白い機能も追加されています。何処かで見たような機能ですが。
まず嬉しいのは、Wan2.6は1回のタスクに対して最大で1080p 15sまでの動画に対応しました。Wan2.5は10sだったのでこれは嬉しいですね。加えて画質とプロンプト追従性、オブジェクト一貫性、音質が順当に向上しています。目立つポイントは、Wan2.6はStarringという機能を取り入れたことです。これは事前に登録されたキャラクターを生成動画内に登場させるもので、Open AI製の動画生成モデルSora2が搭載しているCameo機能にそっくりです。次節では実際に私がテストした生成動画を比較して見てみましょう。
3. 実際の品質を比較
実際に比較を通して感じたことは、意外にもWan2.5は破綻が目立ったということです。私の眼がここ数ヶ月で高性能なモデルに慣れすぎたのか 或いはAlibabaの陰謀なのか分かりませんが、Wan2.6はWan2.5に比べて圧倒的に破綻する確率が小さいです。加えてWan2.6は光の反射表現が圧倒的に改善しています。これは私が初めてVeo3を触ったときの感覚に似ています。勿論Image to Videoで”初項”を与えれば動画モデルはそれを引き継ぎますからWan2.5でも美しい光の反射を持つ動画を生成すること自体は可能です。ただWan2.6が凄いのはText to Videoで素晴らしい画質を誇るということです。
実例を見てみましょう。注意として、Wan2.6は1080pではどうやっても音声統合された動画を生成できなかったのでこの比較は720pで実行しました。おそらくこれはプレビュー版の問題であり、正式リリース版では問題ないと思います。以下は特に言及のない限りWan2.5, Wan2.6の順に動画を並べます。
追記: 12月12日のモデルアップデートによりこの問題は解決されました。現在は1080pでも音声付きの動画を生成できます。
FPVドローンの視点の動画では、破綻についてよく分かります。ドローンの速さが異なるのはSeedガチャの問題なので無視してください。残念なことにWan2.6は”FPV”という指示を無視しましたが、それ以外の破綻はありません。Wan2.5はドローンが出てきては消えたり、その他の細かい破綻が目立ちます。虚空からドローンが出てきて虚空に消えるのは、おそらくサンプリング中にドローンを映すかどうかを迷っているのでしょう。
Veo3で流行ったガラスの果物をゆっくり切るASMR動画はWan2.6の圧勝です。そもそも内容が物理的におかしいことは置いておいて、Wan2.5は明らかに破綻しています。ナイフで一撃刺されても無傷なリンゴからは水音がしますし、そもそも入力プロンプトの”slowly”を無視しています。Wan2.6は期待していた音とは違う音を出力しましたが、それは確かにVeo3が間違っていて、物理的にはWan2.6が正しいと言えるでしょう。
ついでに別のASMRコンセプトも試しました。これもまたWan2.6の圧勝です。Wan2.5は音質以前に映像として破綻しています。このような特殊な映像でも大きな破綻を見せないWan2.6は流石、順当に進化していますね。
日本語の発音をテストするという無茶振りをしてみました。流石にこれは意地悪すぎたようで、Wan2.5はなかなか酷い有様です。Wan2.6は比較的マシですが、それでもまだ日本語の読み上げに対応したとは言えないでしょう。
次は超新星爆発を映像化させてみました。ここではダイナミックレンジとモデルの解釈を確認します。実際の超新星爆発では音が聞こえることはありませんが、Wan動画モデルがこれをどう解決するのかを見てみました。Wan2.5はある意味で堅実です。映像としては超新星爆発のようなものを生成しつつ、爆発音はしないだろうと考えたのでしょう。Wan2.6は超新星爆発supernovaを爆発explosionとして解釈しているようで、白色矮星と見られる天体が音を立てて爆発しています。これは破綻と言えば破綻でしょうか。ダイナミックレンジに関しては両モデルとも問題なさそうです。
水にインクを垂らしてその拡散を見るという古典的なベンチマークはWan2.6の圧勝です。いや、Wan2.5の大敗と言ってもいいかもしれません。プロンプトに無い緑色を追加したのも問題ですが、Wan2.5は流体の動きを正確に描写できていません。
私は車が好きなので動画モデルの比較には車をテーマにしたものを使うことが多いのですがWan2.6の方がこの長さのカットとしては印象的な視点です。運転としてのツッコミどころはありますが、この程度の動きの動画ではWan2.5の破綻は目立ちません。とは言え音は結構違っていてWan2.6の方が音質が良いと断言できます。そして、3つ目の動画のVeo3.1は映像として圧倒的です。
動きの少ないimage to videoに関しては、Wan2.6が若干優れます。とは言えWan2.5の品質が悪いわけではなく、Wan2.6は入力をより上手に解釈して動画にします。
4. Starring機能について
Wan2.6に新しく追加された機能の一つとして、Starring機能があります。これはSora2のCameo機能と同じようなもので、予め登録されたキャラクターを生成動画内に登場させる機能です。Sora2との最大の違いはAPIが提供されるか否かで、Sora2はCameoを含むAPIは提供されないのに対してWan2.6ではそれが提供されます。WanチームはSoraよりも高解像度で生成できたり、プロフェッショナル向けの使用を想定されているとも謳っています。
大まかにはStarring機能の使用感はSora2のCameoと同じです。細かい違いと使用上のコツがいくつかありますので、ご説明します。
大きな違いは、Sora2と違ってWan2.6はStarring機能使用時の生成動画の長さを5s, 10s, 15sに指定できます。アスペクト比も16:9, 4:3, 1:1, 3:4, 9:16と選択できるので、出力の幅は明らかに広いと言えます。
加えて、キャラクターがどのようなインプットで登録されたかを確認できない以上、プロンプトは詳細に書くべきです。Wan2.6にデフォルトで登録されているキャラクターはおそらく中国語で登録されているので、キャラクターを喋らせる場合はその台詞を明確に指定しないとキャラクターが中国語で喋りだすことがあります。これは、プロンプトを英語で書いていてもその事象は発生します。
使用していて強く感じるのはSora2の検閲の厳しさです。明らかにSFWな入力プロンプトに対してSora2は”理不尽な”検閲で弾きます。動画を生成できないのはまだマシなもので、Soraは稀にキャラクター作成をも弾きます。これは私の入力したキャラクターが私の知らない有名人に似ていて、それで弾いている可能性もあります。確かにこの機能はディープフェイクのリスクを含みますから、ある程度厳しすぎる検閲は健全とも言えます。私はバレて怒られたら嫌なので試していませんが、Wanの検閲はSora2に比較して緩いのでWanならディープフェイクを作れるかもしれません。Wanチームの方、これを読んでいたら検閲の最適化をよろしくお願いします。
5. 画像生成
Wan2.6は画像生成にも対応しています。これは以前のモデルシリーズから対応していましたが、Wan2.6の画像生成は品質が向上しています。1枚目がWan2.5, 2枚目がWan2.6です。


全く同じプロンプトを与えた結果ですが、Wan2.6がより美しい画像を生成しました。Wan2.5はプロンプトに忠実に、そして写実的な画像を生成しようとするのに対してWan2.6は色使いやコントラストにおいて見た目への美しさを優先します。


このクラスのモデルとしては当然ながら、Wan2.6は画像編集にも対応しています。こちらはそこそこ高いクオリティで、Nano bananaと同等でしょうか。ただ画像編集の品質はモデルの生成能力というよりも入力の解釈による違いが大きいので、何を良しとするかはある程度の好みに左右されます。画像編集で悪い結果とされるのは、いわゆる”解釈違い”です。その最大の問題は人間側で解釈を体系化できないところです。ですからここでの細かい評価は避けますが、Wan2.6の画像編集はある一定の水準に達していると言えます。仕様としての細かい不満を述べるなら、Wan2.6の画像編集は通常の画像生成と同様にバッチサイズを4に固定されます。画像編集ならバッチサイズは1で良いので、これは無駄に算力を使っているような気がして気分は良くありません。
6. 総評
Wan2.6はWan2.5から動画生成の性能が順当に向上しました。物理的な破綻が圧倒的に少なくなり、全体的な画質も向上しました。Wan2.6はコンセプトとして市場の他の有名なモデルの特長を”欲張りに”採用しています。私はWan2.5を「安いVeo3」と評しましたが、Wan2.6は「安いVeo3 + 安いSora2 + 安いNano banana」でしょうか。Wan2.5のリリースから数ヶ月でこの出力改善と機能追加を成し遂げたことは驚異的です。
最後に私にこのような機会を与えてくださったWanチーム及びSeaArtに感謝を申し上げて、この記事を終わります。最後までお読みいただきありがとうございました。
















