banner_image ×
SeaArt AI Enterprise Version
article cover

SeaArt Flow 2.0で音声重視の映像を作ってみる

avatar
R
avatar_frame
razor
Updated on Jul 2, 2025
6

以前、SeaArt Flow 2.0 生成物&プロンプト比較という記事を書きました。

『プロンプト指示を間違えなければ、動画・エフェクト・音楽・音声・効果音すら思い通りに一発で生成可能』という、以下の以下の動画生成ツールについての記事です。

●SeaArt Flow 2.0 テキストから動画へ

●SeaArt Flow 2.0 画像から動画へ

前回の記事ではどちらかというと、プロンプトによって「動き」がどう変化するかの比較だったのですが、せっかく音声も同時に生成できるのだからと思い、「音声」がどう変化するかの比較もしてみようと思います。


SeaArt Flow 2.0で音声重視の映像を作ってみる

そんなわけで、映像はすごくシンプルにして、音声についてのプロンプトを多めに入力して見ることにしました。

出来上がりのイメージは「シンプルなスタジオでキーボードを演奏しながらシティポップを歌う女性」です。


長めのプロンプトで歌を生成

ミニスタジオ風01

画像か黄色文字クリックで大本の動画URLに飛ぶようにしています。

設定によっては、すべての動画でいきなり大音量が流れるのでご注意ください。

使用プロンプトはこちら↓

---

A meticulously composed, minimalist studio setting, bathed in deep, cinematic shadows, with the primary illumination coming from a single, intensely focused, warm amber spotlight that dramatically sculpts the form of a solitary female singer. The backdrop is a seamless, velvety black, subtly accented by thin, futuristic LED strips that pulse with a barely perceptible, deep indigo and soft pink glow, reminiscent of distant city neon and defining the edges of the intimate performance space. She stands poised, clad in a sleek, tailored black suit that catches the light with understated elegance, her fingers delicately positioned over the keys of a vintage electric piano (Rhodes-esque). The air is thick with anticipation; the only sound is the almost imperceptible hum of studio equipment. Her eyes, initially closed in profound concentration, slowly open, revealing a blend of nostalgic vulnerability and fierce determination as she takes a deep, controlled breath. A sophisticated, smooth City Pop intro begins to swell: a warm, Fender Rhodes-like synth chord progression, joined by a tight, groovy bassline and crisp, understated drums with a driving hi-hat pattern, creating an instantly recognizable, melancholic yet chic groove. A clean, arpeggiated electric guitar line weaves subtly through the instrumentation. As the melody fully blossoms, her voice, clear, smooth, and imbued with a soulful expressiveness characteristic of City Pop, effortlessly glides in: "Neon glow on rainy streets, / Reflecting memories I keep. / Taxi cabs and distant beats, / Whispering secrets, oh so deep." The camera executes a slow, almost imperceptible dolly zoom from a wide shot capturing the entire stage to a medium shot that frames her upper body, emphasizing the delicate interplay between her hands on the keys and the rising and falling of her ? as she sings. As the song progresses into the pre-chorus, "Another summer night, the city's hum, / Lost inside this rhythm, overcome. / Searching for a feeling, I don't know where it's gone, / Beneath the glittering skyscrapers, until the dawn," the camera gracefully glides between intimate close-ups of her expressive face, capturing the subtle tremors of emotion in her eyes and the nuanced movement of her lips, and wider shots that re-establish the stark, focused environment. The lighting shifts subtly, with occasional, brief flares of cool blue or soft purple highlighting key emotional moments, before returning to the dominant high-contrast, moody, warm aesthetic. The sound design remains pristine, prioritizing the lush electric piano, the driving rhythm section, and the raw, powerful purity of her vocals, punctuated only by the occasional, soft key press or a subtle shift in her posture. There are no spoken words, only the narrative woven through her voice and the profound quiet of the space, punctuated by the sophisticated, dreamy textures of the City Pop arrangement.

---

緻密に構成されたミニマルなスタジオセッティングは、深く映画的な影に包まれ、温かみのある琥珀色のスポットライトが一本だけ照らされ、孤独な女性シンガーの姿をドラマチックに浮かび上がらせている。背景は継ぎ目のないベルベットのような黒で、薄く未来的なLEDストリップが繊細なアクセントを添えている。LEDストリップは、かすかに深みのある藍色と淡いピンクの光を放ち、遠くの街のネオンを彷彿とさせ、親密なパフォーマンス空間の境界を際立たせている。彼女は、洗練された仕立ての黒のスーツを身にまとい、控えめな優雅さで光を捉え、ローズ風のビンテージ・エレクトリックピアノの鍵盤に指を繊細に置いた。空気は期待で満たされ、聞こえるのはスタジオ機材のかすかな音だけ。最初は深い集中力で閉じられていた彼女の目は、スローに開き、深く呼吸を整えながら、懐かしい脆さと強い決意が混ざり合った表情を浮かべる。洗練された滑らかなシティポップのイントロが盛り上がり始める。フェンダー・ローズを彷彿とさせる温かみのあるシンセサイザーのコード進行に、タイトでグルーヴィーなベースライン、そして力強いハイハットパターンを伴った歯切れの良い控えめなドラムが加わり、一目で彼女だと分かる、メランコリックでありながらシックなグルーヴが生まれる。クリーンなアルペジエートのエレキギターが、楽器群の間を繊細に織り交ぜる。メロディーが最?に達すると、シティポップ特有のソウルフルな表現力に満ちた、澄み切った滑らかな彼女の歌声が、軽やかに流れ込んでくる。「雨の街路に輝くネオンの光、/私の大切な思い出を映し出す。/タクシーと遠くのビート、/囁く秘密、深く。」カメラは、ステージ全体を捉えるワイドショットから、彼女の上半身を捉えるミディアムショットへと、ほとんど気づかれないほどスローにドリーズームし、キーボードを弾く彼女の手と、歌いながら上下に揺れる胸の繊細な相互作用を強調する。曲がプレコーラス「また夏の夜、街のざわめき。/このリズムに身を委ね、圧倒される。/ある感情を探し求めるが、どこへ行ってしまったのかわからない。/きらめく高層ビル群の下で、夜明けまで」へと進むにつれ、カメラは彼女の表情豊かな顔の親密なクローズアップを優雅に切り替わり、瞳に宿る感情の繊細な震えや唇の繊細な動きを捉える。そして、荒涼とした焦点の合った環境を再構築するワイドショットへと移り変わる。照明は微妙に変化し、時折、クールなブルーや柔らかなパープルが感情の重要な瞬間を際立たせ、その後、再びハイコントラストでムーディーで温かみのある、支配的な美的感覚へと戻る。サウンドデザインは清純さを保ち、豊かなエレクトリックピアノ、力強いリズムセクション、そして彼女の生々しく力強い純粋なボーカルを優先し、時折、彼女のキーボードの柔らかなタッチや、彼女の微妙な姿勢の変化だけが、その魅力を際立たせている。言葉は一切なく、彼女の声を通して紡がれる物語と、シティポップのアレンジメントの洗練された夢のようなテクスチャーがアクセントとなった空間の深い静けさだけが響き渡る。

---

音に関する部分はこの色に、歌詞に関する部分はこの色にしています。

リンクを飛んでもらえばわかるのですが、歌詞はNeon glow on rainy streets, / Reflecting memories I keep. までしか生成されていません。

よくよく考えれば8秒しか生成できないので、こんなに長い歌詞が全部生成されるわけはありませんでした。

ベースライン、ハイハット、ドラムはしっかり入っていると思うのですが、エレキギターは自分の耳では聞き取れませんでした。

あと、そもそもシティポップの定義を自分でよくわかっていないので、シティポップっぽいなぁとは思うのですが、これが正しくシティポップなのかも自信がないです。ダメやん。



短めのプロンプトで歌を生成

ミニスタジオ風02

8秒には収まらない部分を全カットしてみた短めのプロンプトです。

使用プロンプトはこちら↓

---

A minimalist studio setting, cinematic shadows, with a warm amber spotlight on a solitary female vocalist. The backdrop is seamless black, subtly accented by neon-like LED light strips. She stands, clad in a sleek black suit, hands positioned over a vintage electric piano (Rhodes-esque). Her eyes, initially closed, open with determination. A smooth City Pop intro begins: warm synth chords, groovy bass, crisp drums, and subtle electric guitar. Her clear, smooth voice sings: "Neon glow on rainy streets, reflecting memories." The camera executes a slow zoom from a mid-shot to a close-up of her face, capturing emotion. Lighting subtly shifts. The sound emphasizes the piano, rhythm, and clear vocals, with occasional key presses.

---

ミニマルなスタジオセッティング、映画のような影、そして温かみのある琥珀色のスポットライトが一人の女性ボーカリストに照らされている。背景はシームレスな黒で、ネオンのようなLEDライトがさりげなくアクセントになっている。彼女は洗練された黒のスーツに身を包み、ヴィンテージのエレクトリックピアノ(ローズ風)に両手を置いて立っている。最初は閉じていた彼女の目が、決意を込めて見開かれる。滑らかなシティポップのイントロが始まる。温かみのあるシンセコード、グルーヴィーなベース、歯切れの良いドラム、そして繊細なエレキギター。彼女の透き通るような滑らかな歌声が歌う。「雨の街路にネオンが輝き、記憶を映し出す」。カメラはミッドショットから彼女の顔のクローズアップへとスローにズームし、感情を捉える。照明が微妙に変化する。サウンドはピアノ、リズム、そして澄んだボーカルを強調し、時折キーボードの音が聞こえる。

---

音に関する部分はこの色に、歌詞に関する部分はこの色にしています。

歌詞を"Neon glow on rainy streets, reflecting memories."と短くしたからか、よりスローテンポになっています。よりシティポップ感はあるような。

演奏に関しても映像に関してもちょっとシンプルになっている?気がします。

詳細に書けば書くだけ音も映像もクオリティはあがりそうですが「8秒以内に収まる映像・音声を考える」というのは必須ですね。



バンドのPVっぽいものを生成

バンドPV

大人しいシティポップができたのならば、シャウト系のロックバンドPVみたいなのを作ってみようと思ってみたものです。

使用プロンプトはこちら↓

---

The screen dissolves from absolute black into a stark, stylized cityscape at the precipice of twilight: towering, monolithic concrete structures pierce a bruised, violet sky, scarred by neon reflections and a persistent, fine ash falling like snow. A deep, resonant, hypnotic guitar drone instantly pulsates through the speakers, quickly joined by a precision double-bass drum beat that feels like a heartbeat against the apocalypse. Rapid, artistic cuts unfold: The vocalist, a solitary silhouette against the glowing haze of the city, stands atop a crumbling skyscraper, screaming into the desolate wind. His voice, raw and piercing, tears through the silence: "BURN THE DAWN! WE ARE THE RUIN! REBUILD THE ASH!" The lyrics, fierce and poetic, speak of destruction and rebirth. The camera transitions through extreme close-ups: a guitarist's gloved fingers, precise and powerful, tear across a fretboard, each note leaving subtle, digital trails of light; the drummer, a blur of controlled power, arms a whirlwind of motion, each CRACK of the snare and CRASH of the cymbal resonating with unyielding force. The bassist, a stoic, almost sculptural figure, dominates the low end, his movements minimal but intensely impactful. Visual effects are seamlessly integrated: the air around the band visibly shimmers with kinetic energy as they play; cracks spiderweb across the concrete beneath their feet with each powerful beat; phantom echoes of distorted cityscapes flicker in the background. The lighting is cinematic and dramatic, shifting from stark monochromatic greys to piercing emerald greens and violent purples, emphasizing contrast and mood. The camera employs sophisticated drone shots soaring over the desolate city, aggressive POV shots from instruments, and stylized slow-motion sequences capturing droplets of sweat or fragmented debris in mid-air. The music builds to an explosive, anthemic chorus, the vocalist framed against a vast, silent, decaying metropolis, his voice a defiant call to arms. The screen is briefly consumed by a final, blinding digital glitch effect, then abruptly cuts to absolute black. A single, ringing guitar chord resonates, slowly fading into an unnerving, profound silence.

---

画面は完全な黒から、夕闇の淵に佇む荒涼とした様式化された都市の風景へと溶けていく。そびえ立つモノリスのようなコンクリートの建物が、ネオンの反射と、雪のように降り積もる細かな灰に傷ついた紫がかった空を突き抜けている。深く響き渡る、催眠術のようなギターのドローンがスピーカーから瞬時に響き渡り、すぐに終末の世界に抗う鼓動のように響く、精密なダブルベースのドラムビートが加わる。素早く芸術的なカットが展開される。街の輝く霞を背景に、孤独なシルエットを成すボーカリストは、崩れゆく高層ビルの頂上に立ち、荒涼とした風に向かって叫ぶ。彼の生々しく鋭い声が静寂を切り裂く。「夜明けを燃やせ! 俺たちは廃墟だ! 灰を再建しろ!」激しくも詩的な歌詞は、破壊と再生を歌っている。カメラは超クローズアップで映し出される。ギタリストの手袋をはめた指は正確かつ力強く、フレットボードを縦横無尽に駆け巡り、音符ひとつひとつが繊細なデジタルの光跡を残す。ドラマーは、抑えられた力で腕を旋風のように動かし、スネアの「クラック」やシンバルの「クラッシュ」の音が、揺るぎない力で響き渡る。ベーシストは、ストイックで彫刻のような佇まいで低音域を支配し、その動きは最小限ながらも強烈なインパクトを与える。視覚効果はシームレスに統合され、バンドの演奏中、周囲の空気は運動エネルギーで揺らめき、力強いビートごとに足元のコンクリートに蜘蛛の巣のようなひび割れが生じ、歪んだ都市景観の幻影が背景で明滅する。照明は映画的でドラマチック。単色のグレーから突き刺すようなエメラルドグリーンや激しい紫へと移り変わり、コントラストとムードを強調する。カメラは、荒廃した街の上空を舞う洗練されたドローンショット、楽器を捉えた攻撃的な主観ショット、そして空中の汗の雫や破片を捉えるスタイリッシュなスローモーションシーケンスを駆使する。音楽は爆発的なアンセミックなコーラスへと盛り上がり、ボーカリストは広大で静まり返り、朽ちゆく大都市を背景に、その声は反抗的な戦いへの呼びかけのように響く。画面は一瞬、目もくらむようなデジタルグリッチエフェクトに飲み込まれ、そして突然、完全な暗黒へと切り替わる。鳴り響くギターのコードが一つ響き、スローに不穏で深遠な静寂へと消えていく。

---

音に関する部分はこの色に、歌詞に関する部分はこの色にしています。

生々しく鋭い声で叫んでいるのは間違いないのですが、英語の聞き取りができず、"BURN THE DAWN! WE ARE THE RUIN! REBUILD THE ASH!"と歌っているのかが分かりません。

楽器音は入っているんですが、ひとつ前の生成動画のようにメロディにはなってないですね。ジャンルをもっと指示すべきでした。



映画予告編っぽいものを生成

映画予告

セリフを入れてみようと思い、よくあるスパイ映画っぽいなにかの予告らしきものを作ってみました。

使用プロンプトはこちら↓

---

The screen dissolves into a dazzling, high-speed montage. City lights blur into streaks as a sleek, black luxury car screeches through a rain-slicked Tokyo night, its tires spitting water. A sharp cut to a gloved hand expertly assembling a high-tech sniper rifle, its scope glinting. Then, a quick flash of a digital countdown timer, rapidly approaching zero, projected onto a shimmering, holographic map of a secured facility. The air crackles with tension. A pulsating, modern or?ral score, layered with driving electronic beats and rapid, sharp percussion, immediately establishes a sophisticated, high-stakes tone. The rhythmic thump-thump of a helicopter rotor blade becomes subtly audible, growing closer. Rapid, adrenaline-fueled cuts dominate: a shadowy figure, impossibly agile, performing acrobatic evasions through a labyrinthine laser grid; a visceral hand-to-hand combat sequence in a narrow corridor, punctuated by sharp CRACKs of impact; a panoramic shot of an impossible skyscraper exploding in a silent, fiery bloom against a twilight sky. A cool, commanding female voice, precise and calm, cuts through the chaos: "The target is secured. Eliminate all witnesses." This is followed by a gruff male voice, filled with urgency: "They know we're here! Get out!" The score swells to a powerful, thrilling crescendo, as the screen becomes a rapid-fire succession of a bullet shattering glass in slow motion, a desperate leap across a rooftop, and a final, explosive BOOM that engulfs the frame. The screen abruptly cuts to absolute black. A sleek, stylized title card flashes on screen: "ZERO HOUR". A lingering, distant thrum of a powerful jet engine fades into silence.

---

画面が瞬く間に、まばゆい?りの高速モンタージュへと切り替わる。街の明かりが線状にぼやけ、流線型の黒塗りの高級車が雨に濡れた東京の夜空を軋む音を立てながら走り抜ける。鋭いカットが映し出され、手袋をはめた手がハイテクなスナイパーライフルを巧みに組み立て、スコープがきらめく。そして、デジタルカウントダウンタイマーが瞬時に点滅し、厳重な警備施設のきらめくホログラムマップに投影され、カウントダウンはゼロへと急速に近づいていく。空気は緊張でざわめく。脈動するモダンなオーケストラの音楽に、力強いエレクトロニックビートと鋭く速いパーカッションが重なり、洗練された緊張感あふれる雰囲気が瞬時に醸し出される。ヘリコプターのプロペラブレードのリズミカルなドンドンという音がかすかに聞こえ始め、徐々に近づいてくる。アドレナリン全開の高速カットが画面を支配していく。迷宮のようなレーザーグリッドの中を、信じられないほど機敏にアクロバティックな回避を繰り広げる影のような人物。狭い廊下で繰り広げられる、鋭い衝撃の「クラック」という音が際立つ肉弾戦。夕暮れの空を背景に、静寂の中で燃え盛る炎を放ちながら爆発する、ありえないほど高層ビルのパノラマショット。冷徹で威圧的な女性の声が、正確かつ冷静に、混沌を切り裂く。「標的を確保しました。目撃者を全員排除してください。」そして、緊迫感に満ちた荒々しい男性の声が続く。「奴らは我々の存在を知っている!逃げろ!」BGMは力強くスリリングなクレッシェンドへと盛り上がり、画面はスローモーションでガラスを砕く銃弾、屋上を飛び越える必死のジャンプ、そしてフレームを飲み込む最後の爆発音へと、矢継ぎ早に切り替わる。画面が突然真っ暗になる。洗練されたスタイリッシュなタイトルカードが画面に映し出される。「ゼロアワー」。遠くでかすかに聞こえる強力なジェットエンジンの轟音は、静寂へと消えていく。

---

音に関する部分はこの色です、声に関する部分はこの色です。

脈動するモダンなオーケストラの音楽に、力強いエレクトロニックビートと鋭く速いパーカッションはまったくうまくいってないです。

シーンの切り替えが早すぎたからかもしれません。

"The target is secured. Eliminate all witnesses." と"They know we're here! Get out!" はセリフは問題ないですが、性別が逆になっています。



所感

一番うまくいった気がするのはシーン切り替えが激しくない最初のものだったので、あまりにもカメラアングルが変わるもの、キャラクターが多いものは映像と音声は分けた方がいいのかもしれません。(そもそも8秒しか生成が無理なので)

ただ、静かな演奏、アカペラなどに関しては2フレーズずつ作って繋げていく、などをすれば一曲歌わせることなども可能な気がしました。



19
6
0 comment
6
19
0
0/400
Related Guides
cover
Get Started with SeaArt SonoVision in 3 Minutes
avatar
S
avatar_frame
SeaArt Official
1987
1438
cover
COMPREHENSIVE GUIDE DIRECTORY
avatar
S
avatar_frame
SeaArt Official
12317
4947
cover
Wan2.5を使って10秒CMを作る(架空アパレルブランド編)
avatar
R
avatar_frame
razor
2641
372
cover
【Veo3キラー】Wan2.5 解説
avatar
椎
avatar_frame
椎名
1789
261
cover
SeaArt Flow Basic Operation Guide
avatar
S
SeaArt Guide Guy
424
17
cover
SeaArt Film Video Realistic Style Tutorial
avatar
C
chengxu01
312
8829
cover
SeaArt Muse Prompt Tutorial
avatar
avatar_frame
SeaArt VIdeo Master
140
4599
cover
Veo 3.1 is live on SeaArt!
avatar
S
avatar_frame
SeaArt Comfy Helper
298
97
cover
WANVideo VACE KJ Fun Use Case Collection
avatar
S
avatar_frame
SeaArt Comfy Helper
248
99
cover
Teach you to create "dynamic photos" and become a "detail cont
avatar
S
SeaArt Guide Guy
226
21
logo
English
Application
Create Image AI Characters Swift AI Model Training Canvas AI Apps Workflow
About
Studio Rankings AI Chat AI Blog AI News
Help
Guides Customer Service
Get App
icon
Download on the
APP Store
icon
GET IT ON
Google Play
Follow Us
iconiconiconiconiconiconiconicon
© 2025 SeaArt, Inc.
Copyright Policy
Terms
Privacy 特定商取引法 資金決済法に基づく表示
More