AI画像生成モデルの傾向
いろんな画像生成モデルがあるので、いったん現状がどんな感じかまとめることにした。
クラウドにおけるAI画像生成モデル
1. 静止画(画像)生成AI 比較表
| 提供元 |
サービス・モデル名 |
特徴・強み・固有機能 |
料金の目安 |
人気度 |
精度・品質の傾向 |
| Adobe |
Firefly(Adobeモデル) |
Photoshop等と連携。Adobeの“Fireflyモデル”はライセンス/許諾済み等のデータ中心で、商用利用の安心感を強く訴求(※アプリ内で他社モデルも選べるため、条件付きで記載推奨)。 |
無料枠あり / 有料プラン |
★★★★☆ |
高(商用制作に寄せた安定感) |
| Google |
Imagen 4 |
写実〜イラストまで高品質。プロンプト追従・文字/タイポ改善が進んだ世代。利用はGemini/Vertex AI等で提供形態が分かれる。 |
一部無料 / API従量制(提供形態で差) |
★★★★☆ |
最高峰(写実・プロンプト忠実度) |
| Google |
Gemini(Nano Banana / Nano Banana Pro) |
Gemini内蔵の画像生成/編集。文字の描画、対話しながらの部分編集、複数画像の合成・一貫性が強み。 |
一部無料 / 有料枠(プランで差) |
★★★☆☆ |
高(文字・対話的編集) |
| Ideogram |
Ideogram(Ideogram 3系) |
文字入りデザイン(ロゴ/ポスター/見出し)で定番。タイポ品質を理由に採用されやすい。 |
無料枠あり / 有料プラン |
★★★★☆ |
高(タイポ・デザイン用途) |
| Recraft |
Recraft(V3等) |
ベクター出力やデザイン制作ワークフローに強い。文字配置など“デザイン作業”寄り。 |
無料枠あり / 有料プラン |
★★★★☆ |
高(デザイン・ベクター) |
| Stability AI |
Stable Diffusion 3.5(API/Studio) |
SD系の代表格。コミュニティ資産も強く、用途別の派生が豊富。※利用条件はライセンス/収益条件に依存。 |
API従量制 / プラン |
★★★★☆ |
高(汎用・運用しやすさ) |
| Leonardo |
Leonardo.ai |
ブラウザで高機能UI。ゲームアセット作成に強く、LoRA/学習・スタイル管理などカスタマイズが手軽。 |
無料枠あり / 有料サブスク |
★★★★☆ |
高(カスタマイズ性・ゲーム系) |
| Meta |
Meta AI(画像生成 / Imagine) |
Instagram等のMeta環境と連携しやすい。スタンプ等の“日常用途”で手軽。※提供地域・機能は段階展開の可能性。 |
無料(提供地域/機能で差) |
★★★☆☆ |
中〜高(手軽さ・ポップさ) |
| Midjourney |
Midjourney |
芸術性、映画的ライティング、質感表現が強い。作家性のある画作りで定評。 |
有料サブスク中心 |
★★★★★ |
最高峰(芸術性・美麗さ) |
| OpenAI |
ChatGPT Images(GPT Image / gpt-image-1系) |
ChatGPT上で対話しながら生成・編集ができ、意図理解と修正ループが強い。※DALL·E 3はAPIで廃止予定のため“現行比較”はGPT Image系推奨。 |
ChatGPTプラン等 / API従量制 |
★★★★★ |
高(意図理解・汎用性) |
| xAI |
Grok Imagine(画像) |
画像生成に加え、同一UI/ワークフローで動画化や音声生成まで繋げやすい設計(利用範囲はプラン/APIで差)。 |
X有料枠等 / API従量制 |
★★★☆☆ |
高(統合体験・高速反復) |
| --- |
|
|
|
|
|
2. 動画生成AI 比較表
| 提供元 |
サービス・モデル名 |
特徴・強み・固有機能 |
料金の目安 |
人気度 |
精度・品質の傾向 |
| Adobe |
Firefly Video |
クリエイター向けの制御と既存ツール連携。商用制作を意識した運用設計(※モデル/素材の条件は利用設定に依存)。 |
無料枠あり / 有料プラン |
★★★☆☆ |
高(制作フロー連携) |
| Google |
Veo 3(Veo 3.x) |
高精細映像に加え、効果音・環境音・セリフなど“ネイティブ音声”生成に対応。写実・物理・プロンプト追従が強い。 |
一部無料 / 有料(提供形態で差) |
★★★★☆ |
最高峰(音声同期・高画質) |
| Kuaishou |
Kling AI |
長尺寄りや人物動作の自然さで定評。物理っぽさ・動きの破綻の少なさを狙える傾向。 |
無料枠あり / 有料サブスク |
★★★★☆ |
最高峰級(人物・動作) |
| Luma AI |
Dream Machine |
生成スピードが速く、自然でダイナミックなカメラワーク(視点移動)に定評。 |
無料枠あり / 有料サブスク |
★★★★☆ |
高(スピード・カメラ) |
| OpenAI |
Sora 2 |
空間の連続性・物理一貫性が強み。同期したセリフ/効果音まで含めた生成が可能。Plusに含まれる枠があり、上位プランで増量。 |
ChatGPT Plus〜(上位で増量) |
★★★★★ |
最高峰(空間一貫性・写実) |
| Pika Labs |
Pika |
アニメ/3D寄り表現や編集機能が充実。リップシンク等の“後工程”も含めた体験が強い。 |
無料枠あり / 有料サブスク |
★★★★☆ |
高(アニメ・編集) |
| Runway |
Runway(Gen-3等) |
動画生成の老舗。Motion Brush等、制作向けの制御・編集機能が豊富。 |
無料枠あり / 有料サブスク |
★★★★★ |
最高峰(制作向け制御) |
| MiniMax |
Hailuo(02/2.3等) |
一発生成の質感・動きの滑らかさで定評(提供形態/モデル名は更新が早い)。 |
無料枠あり / 有料プラン |
★★★★☆ |
高(質感・動き) |
| xAI |
Grok Imagine(動画) |
T2V/I2V/動画編集+“ネイティブ音声”まで統合。短尺中心(長さ・解像度はプラン/APIで変動)。※安全面のガードレール方針は競合と差があるため用途により注意。 |
X有料枠等 / API従量制 |
★★★☆☆ |
高(統合生成・反復) |
3. 動画化・アニメーション生成クラウド比較表
| サービス名 |
提供元 |
特徴・強み |
料金の目安 |
ローカル代替の難易度 |
| Runway(Gen-3等) |
Runway |
Motion Brush等で“動かす箇所”を指定できるなど制御が強い。 |
無料枠あり / 有料サブスク |
【高】 近いことは可能でも、操作性・高画質・安定性の両立が難しい。 |
| Luma Dream Machine |
Luma AI |
高速生成+ダイナミックなカメラワークが得意。 |
無料枠あり / 有料サブスク |
【高】 大きな視点移動の破綻回避は依然クラウド優位。 |
| Kling AI |
Kuaishou |
人物動作・長尺寄りで定評。 |
無料枠あり / 有料サブスク |
【激高】 長尺×安定の再現はローカルだと重い。 |
| Sora |
OpenAI |
空間一貫性・写実感が強い。 |
ChatGPT Plus〜(上位で増量) |
【激高】 同等品質の再現は計算量的に現実的でない。 |
| Hailuo(MiniMax) |
MiniMax |
一発生成の質感・動きの滑らかさで定評。 |
無料枠あり / 有料プラン |
【高】 同等品質の再現は難しい。 |
4. 音声・セリフ生成クラウド比較表
| サービス名 |
提供元 |
特徴・強み |
料金の目安 |
ローカル代替の難易度 |
| ElevenLabs |
ElevenLabs |
高品質TTS/ボイスクローン。感情表現やナレーション品質で定評。 |
無料枠あり / 有料プラン |
【中】 ローカルでも作れるが、手軽さ・総合品質でクラウド優位になりやすい。 |
| PlayHT(Play.ai系) |
PlayHT |
ナレーション用途で人気。声のバリエーションやワークフローが強み。 |
無料枠あり / 有料プラン |
【中】 ローカルは環境構築・運用が重くなりがち。 |
| Voice Engine(限定プレビュー) |
OpenAI |
少ないサンプルから声色を保つ方向性で注目されたが、提供は小規模プレビュー扱い(一般公開前提の記載は避ける)。 |
提供先限定(一般公開なし想定) |
【高】 少サンプル高精度クローンはローカルの運用難度が高い。 |
| VOICEVOX |
ヒロシバ |
日本語に強い定番ローカル音声合成。「ずんだもん」等、キャラボイス豊富。 |
完全無料 |
【低(ローカル)】 日本語アニメ声/実況系はこれで十分。 |
5. リップシンク・表情制御クラウド比較表
| サービス名 |
提供元 |
特徴・強み |
料金の目安 |
ローカル代替の難易度 |
| Hedra |
Hedra |
1枚絵+音声で喋り/歌い動画を作る手軽さが強い。 |
無料枠あり / 有料プラン |
【中】 代替は可能だが、自然さ・手軽さで差が出やすい。 |
| Sync Labs |
Sync Labs |
既存動画に高精度リップシンクを後付けするAPI寄り。 |
無料枠あり / API従量制 |
【高】 高精度後付けはローカルで破綻しやすい。 |
| HeyGen |
HeyGen |
ビジネス/解説向けアバター動画が強い。多言語化にも使われる。 |
無料枠あり / 有料サブスク |
【高】 全身アバター含む制作はローカル構築が複雑。 |
| Pika(Lip Sync等) |
Pika Labs |
生成→編集→リップシンクまで一気通貫の体験が強い。 |
無料枠あり / 有料サブスク |
【高】 “一気通貫”の作業効率がローカルでは出しにくい。 |
6. BGM・効果音生成クラウド比較表
| サービス名 |
提供元 |
特徴・強み |
料金の目安 |
ローカル代替の難易度 |
| Suno |
Suno |
ボーカル入り楽曲を指示だけで生成しやすく、完成度が高い傾向。 |
無料枠あり / 有料サブスク |
【激高】 総合品質・手軽さでクラウド優位。 |
| Udio |
Udio |
音質や生音感のあるアレンジで定評。 |
無料枠あり / 有料サブスク |
【激高】 高音質楽曲生成は依然クラウド優位。 |
| Lyria 3(Gemini)/ Lyria(Vertex) |
Google |
高品位な音楽生成(用途は“作曲支援/アイデア出し”寄り)。※Gemini側はLyria 3、VertexのAPI/課金表記はLyria 2中心の時期があるので注記推奨。 |
一部無料 / API従量制(提供形態で差) |
【激高】 高音質楽曲生成はクラウド優位。 |
| ElevenLabs(SFX) |
ElevenLabs |
効果音生成に特化。短い指示で使える素材を出しやすい。 |
ElevenLabsプラン内等 |
【中】 ローカルでも可能だが“一発の当たり”はクラウドが出やすい。 |
| Stable Audio |
Stability AI |
ループや尺指定BGMに強い。ローカル向け公開モデルもあり移行しやすい側。 |
無料枠あり / 有料サブスク |
【低〜中】 ローカル移行の選択肢が比較的ある。 |
ローカルにおけるAI画像生成モデル
1. 静止画(画像)生成AI ローカル最新比較表
| モデル・ツール名 |
開発元 |
特徴・強み(最新トレンド) |
要求VRAM目安 |
| Z-Image-Turbo |
Alibaba/Tongyi |
【軽量寄り×写実】少ない計算量で高い質感を狙える系。テキスト描画は主に英語/中国語が強いとされ、日本語は環境・プロンプト次第(要検証)。 |
8GB〜16GB(16GB推奨) |
| Qwen-Image |
Alibaba/Qwen |
テキスト描画(漢字圏)と写実寄りの肌感に定評。オープンソースで扱いやすい。 |
8GB〜16GB(快適は12GB+) |
| Kolors |
Kuaishou(Kwai) |
中国語/英語のテキスト描画と中国系コンテンツの理解で強いとされるオープンモデル。 |
12GB〜24GB(モデル/実装で変動) |
| HunyuanImage 3.0 |
Tencent |
オープンソースの画像生成モデル群。中国語/英語中心だが“世代更新枠”として強い。 |
12GB〜24GB(モデル/実装で変動) |
| Hunyuan-DiT |
Tencent |
研究実装寄り。要件表が比較的明示されている(GPUでの必要メモリは実装次第)。 |
14GB+(目安) |
| FLUX.1 [schnell] |
Black Forest Labs |
1〜4 stepsの高速生成。品質と速度の両立。 |
8〜16GB(目安) |
| FLUX.1 [dev] |
Black Forest Labs |
プロンプト追従・破綻の少なさで強い“研究/開発枠”。 |
16〜24GB(量子化で下げ可) |
| FLUX.2 [dev] |
Black Forest Labs |
32Bの最新“dev”。生成だけでなく編集/複数参照も強い。非商用ライセンス。フル精度は重く、量子化やテキストエンコーダ分離などの工夫が前提。 |
24GB級推奨(量子化+工夫で下げ可) |
| FLUX.2 [klein] 4B |
Black Forest Labs |
“実用ローカル枠”。高速・軽量で編集もこなす。Apache 2.0で商用OK。 |
13GB前後(3090/4070級〜) |
| FLUX.2 [klein] 9B |
Black Forest Labs |
kleinの高品質側。品質/レイテンシのバランスが良いが、非商用ライセンスでVRAMも重い。 |
29GB前後(4090以上目安) |
| SDXL |
Stability AI |
生成基盤として成熟。LoRA/追加学習資産の豊富さが最大の強み(特にアニメ/スタイル寄り)。 |
8GB〜12GB |
| SD 3.5(モデル別) |
Stability AI |
SDXLより新世代。品質/追従は向上傾向だが、ライセンス条件(Community License等)とモデルサイズ差に注意。 |
12GB〜24GB(サイズ/設定で変動) |
2. 動画生成AI ローカル最新比較表
| モデル・ツール名 |
開発元 |
特徴・強み(最新トレンド) |
要求VRAM目安 |
| LTX-2(/LTX-Video系) |
Lightricks |
【軽量志向】比較的少ないVRAMで回しやすい系。映像+音声同期まで単一モデルで扱えるのが特徴(環境差あり)。 |
8GB〜16GB(高解像度/長尺は増) |
| Wan 2.2 |
Alibaba/Wan |
オープン系の有力候補。複雑プロンプトや参照(I2V等)にも対応しやすい傾向。 |
16GB〜24GB(版/設定で変動) |
| Wan 2.2 Lightning |
コミュニティ蒸留版 |
Wan 2.2系の高速化/軽量化を狙った派生。速度重視の選択肢。 |
16GB〜24GB(版/設定で変動) |
| HunyuanVideo 1.5 |
Tencent |
オープン系の動画モデル。軽量(8.3B)で14GB級GPUもターゲットとされる。※ライセンス適用地域など条件に注意。 |
14GB〜(目安) |
| CogVideoX(2B/5B等) |
Zhipu AI |
テキスト理解と安定性で定評。サイズ選択で必要VRAMが大きく変わる。 |
12GB〜24GB(2Bは軽め/5Bは重め) |
| Mochi 1(Preview等) |
Genmo |
高品質寄りで人気。VRAMは重めになりやすい。 |
22GB〜(24GB推奨) |
3. 動画化・アニメーション生成 ローカル比較表
| モデル・ツール名 |
開発元 |
特徴・強み |
要求VRAM目安 |
| AnimateDiff |
有志開発 |
SD系(SD1.5/SDXL等)の画風を保ったまま動画化しやすい定番。ワークフロー資産が多い。 |
8GB〜12GB(解像度/フレームで増) |
| DynamiCrafter |
研究系(Tencent等) |
1枚絵+テキスト指示で動き(モーション)を付与しやすい。短いループにも向く。 |
16GB〜24GB(目安) |
| EbSynth |
Secret Weapons |
(※厳密には生成AIではない)1枚絵のスタイルを動画全フレームへ転写する老舗。実写→アニメ化の補助で強い。 |
CPU中心(環境差あり) |
4. 音声・セリフ生成 ローカル比較表
| モデル・ツール名 |
開発元 |
特徴・強み |
要求VRAM目安 |
| GPT-SoVITS |
有志開発 |
少量音声からの高品質VC/クローンが可能な定番。学習・前処理込みだとVRAMを食いやすい。 |
4GB〜(学習/快適は8GB+) |
| F5-TTS |
有志開発 |
ゼロショット寄りで短いサンプルから自然なTTSを狙える。構成次第で軽く動く。 |
2GB〜(快適は8GB+) |
| OpenVoice |
MyShell(MIT研究発) |
短い参照音声からの即席クローン。MIT Licenseで商用利用しやすいのが強み。 |
4GB〜(目安) |
| XTTS v2 |
Coqui |
多言語クローンの定番だが、モデルライセンスが非商用なので“仕事用途”資料では注意書き推奨。 |
6GB〜(目安) |
| VOICEVOX |
ヒロシバ |
日本語イントネーション調整が強く、GUIが扱いやすい定番。(声クローン不可) |
CPU可(GPU不要) |
5. リップシンク・表情制御 ローカル比較表
| モデル・ツール名 |
開発元 |
特徴・強み |
要求VRAM目安 |
| LivePortrait |
研究系(Kuaishou等) |
1枚顔+参照動画で滑らかな表情/首振りを作りやすい定番。※依存モデルに非商用条件が含まれる可能性があるため、商用利用は要確認。 |
6GB〜8GB(目安) |
| MuseTalk |
Tencent系 |
リップシンクの品質・リアルタイム性が強み。軽め構成なら低VRAMでも動くことがある。 |
4GB〜8GB(解像度で増) |
| SadTalker |
有志開発 |
1枚顔+音声だけで簡単に口パク/まばたきを付けられる。 |
4GB〜8GB(設定次第) |
6. BGM・効果音生成 ローカル比較表
| モデル・ツール名 |
開発元 |
特徴・強み |
要求VRAM目安 |
| AudioLDM 2 |
研究系(有志/論文実装) |
音楽だけでなく効果音(SFX)や環境音生成にも使いやすい定番。 |
8GB〜 |
| MusicGen |
Meta |
テキスト→音楽の王道。BGM用途に十分な品質を狙える。※重みはCC BY-NCで商用不可(運用注意)。 |
8GB〜16GB |
| Stable Audio Open |
Stability AI |
ループ/短尺素材や環境音などを生成。※商用はライセンス条件(Community License等)に依存。 |
12GB〜(目安) |
7. 画像編集・合成(ローカル)比較表:I2I(画像→画像)中心
| モデル・ツール名 |
開発元 |
役割/強み(ざっくり) |
要求VRAM目安 |
ライセンス注意 |
| FLUX.1 Kontext [dev] |
Black Forest Labs |
テキスト指示だけで画像を編集(マスク不要寄り)、参照一貫性が強い。 |
16GB前後〜(量子化で下げ可) |
Non-Commercial(dev枠) |
| SDXL Inpaint + ControlNet |
コミュニティ |
マスク編集・ポーズ/構図制御の定番。ワークフロー資産が多い。 |
8〜12GB(用途で増) |
モデル/拡張ごとに条件差 |