作成日: 2026.02.24

AI画像生成モデルの傾向

いろんな画像生成モデルがあるので、いったん現状がどんな感じかまとめることにした。

クラウドにおけるAI画像生成モデル

1. 静止画（画像）生成AI 比較表

提供元	サービス・モデル名	特徴・強み・固有機能	料金の目安	人気度	精度・品質の傾向
Adobe	Firefly（Adobeモデル）	Photoshop等と連携。Adobeの“Fireflyモデル”はライセンス/許諾済み等のデータ中心で、商用利用の安心感を強く訴求（※アプリ内で他社モデルも選べるため、条件付きで記載推奨）。	無料枠あり / 有料プラン	★★★★☆	高（商用制作に寄せた安定感）
Google	Imagen 4	写実〜イラストまで高品質。プロンプト追従・文字/タイポ改善が進んだ世代。利用はGemini/Vertex AI等で提供形態が分かれる。	一部無料 / API従量制（提供形態で差）	★★★★☆	最高峰（写実・プロンプト忠実度）
Google	Gemini（Nano Banana / Nano Banana Pro）	Gemini内蔵の画像生成/編集。文字の描画、対話しながらの部分編集、複数画像の合成・一貫性が強み。	一部無料 / 有料枠（プランで差）	★★★☆☆	高（文字・対話的編集）
Ideogram	Ideogram（Ideogram 3系）	文字入りデザイン（ロゴ/ポスター/見出し）で定番。タイポ品質を理由に採用されやすい。	無料枠あり / 有料プラン	★★★★☆	高（タイポ・デザイン用途）
Recraft	Recraft（V3等）	ベクター出力やデザイン制作ワークフローに強い。文字配置など“デザイン作業”寄り。	無料枠あり / 有料プラン	★★★★☆	高（デザイン・ベクター）
Stability AI	Stable Diffusion 3.5（API/Studio）	SD系の代表格。コミュニティ資産も強く、用途別の派生が豊富。※利用条件はライセンス/収益条件に依存。	API従量制 / プラン	★★★★☆	高（汎用・運用しやすさ）
Leonardo	Leonardo.ai	ブラウザで高機能UI。ゲームアセット作成に強く、LoRA/学習・スタイル管理などカスタマイズが手軽。	無料枠あり / 有料サブスク	★★★★☆	高（カスタマイズ性・ゲーム系）
Meta	Meta AI（画像生成 / Imagine）	Instagram等のMeta環境と連携しやすい。スタンプ等の“日常用途”で手軽。※提供地域・機能は段階展開の可能性。	無料（提供地域/機能で差）	★★★☆☆	中〜高（手軽さ・ポップさ）
Midjourney	Midjourney	芸術性、映画的ライティング、質感表現が強い。作家性のある画作りで定評。	有料サブスク中心	★★★★★	最高峰（芸術性・美麗さ）
OpenAI	ChatGPT Images（GPT Image / gpt-image-1系）	ChatGPT上で対話しながら生成・編集ができ、意図理解と修正ループが強い。※DALL·E 3はAPIで廃止予定のため“現行比較”はGPT Image系推奨。	ChatGPTプラン等 / API従量制	★★★★★	高（意図理解・汎用性）
xAI	Grok Imagine（画像）	画像生成に加え、同一UI/ワークフローで動画化や音声生成まで繋げやすい設計（利用範囲はプラン/APIで差）。	X有料枠等 / API従量制	★★★☆☆	高（統合体験・高速反復）
---

2. 動画生成AI 比較表

提供元	サービス・モデル名	特徴・強み・固有機能	料金の目安	人気度	精度・品質の傾向
Adobe	Firefly Video	クリエイター向けの制御と既存ツール連携。商用制作を意識した運用設計（※モデル/素材の条件は利用設定に依存）。	無料枠あり / 有料プラン	★★★☆☆	高（制作フロー連携）
Google	Veo 3（Veo 3.x）	高精細映像に加え、効果音・環境音・セリフなど“ネイティブ音声”生成に対応。写実・物理・プロンプト追従が強い。	一部無料 / 有料（提供形態で差）	★★★★☆	最高峰（音声同期・高画質）
Kuaishou	Kling AI	長尺寄りや人物動作の自然さで定評。物理っぽさ・動きの破綻の少なさを狙える傾向。	無料枠あり / 有料サブスク	★★★★☆	最高峰級（人物・動作）
Luma AI	Dream Machine	生成スピードが速く、自然でダイナミックなカメラワーク（視点移動）に定評。	無料枠あり / 有料サブスク	★★★★☆	高（スピード・カメラ）
OpenAI	Sora 2	空間の連続性・物理一貫性が強み。同期したセリフ/効果音まで含めた生成が可能。Plusに含まれる枠があり、上位プランで増量。	ChatGPT Plus〜（上位で増量）	★★★★★	最高峰（空間一貫性・写実）
Pika Labs	Pika	アニメ/3D寄り表現や編集機能が充実。リップシンク等の“後工程”も含めた体験が強い。	無料枠あり / 有料サブスク	★★★★☆	高（アニメ・編集）
Runway	Runway（Gen-3等）	動画生成の老舗。Motion Brush等、制作向けの制御・編集機能が豊富。	無料枠あり / 有料サブスク	★★★★★	最高峰（制作向け制御）
MiniMax	Hailuo（02/2.3等）	一発生成の質感・動きの滑らかさで定評（提供形態/モデル名は更新が早い）。	無料枠あり / 有料プラン	★★★★☆	高（質感・動き）
xAI	Grok Imagine（動画）	T2V/I2V/動画編集＋“ネイティブ音声”まで統合。短尺中心（長さ・解像度はプラン/APIで変動）。※安全面のガードレール方針は競合と差があるため用途により注意。	X有料枠等 / API従量制	★★★☆☆	高（統合生成・反復）

3. 動画化・アニメーション生成クラウド比較表

サービス名	提供元	特徴・強み	料金の目安	ローカル代替の難易度
Runway（Gen-3等）	Runway	Motion Brush等で“動かす箇所”を指定できるなど制御が強い。	無料枠あり / 有料サブスク	【高】近いことは可能でも、操作性・高画質・安定性の両立が難しい。
Luma Dream Machine	Luma AI	高速生成＋ダイナミックなカメラワークが得意。	無料枠あり / 有料サブスク	【高】大きな視点移動の破綻回避は依然クラウド優位。
Kling AI	Kuaishou	人物動作・長尺寄りで定評。	無料枠あり / 有料サブスク	【激高】長尺×安定の再現はローカルだと重い。
Sora	OpenAI	空間一貫性・写実感が強い。	ChatGPT Plus〜（上位で増量）	【激高】同等品質の再現は計算量的に現実的でない。
Hailuo（MiniMax）	MiniMax	一発生成の質感・動きの滑らかさで定評。	無料枠あり / 有料プラン	【高】同等品質の再現は難しい。

4. 音声・セリフ生成クラウド比較表

サービス名	提供元	特徴・強み	料金の目安	ローカル代替の難易度
ElevenLabs	ElevenLabs	高品質TTS/ボイスクローン。感情表現やナレーション品質で定評。	無料枠あり / 有料プラン	【中】ローカルでも作れるが、手軽さ・総合品質でクラウド優位になりやすい。
PlayHT（Play.ai系）	PlayHT	ナレーション用途で人気。声のバリエーションやワークフローが強み。	無料枠あり / 有料プラン	【中】ローカルは環境構築・運用が重くなりがち。
Voice Engine（限定プレビュー）	OpenAI	少ないサンプルから声色を保つ方向性で注目されたが、提供は小規模プレビュー扱い（一般公開前提の記載は避ける）。	提供先限定（一般公開なし想定）	【高】少サンプル高精度クローンはローカルの運用難度が高い。
VOICEVOX	ヒロシバ	日本語に強い定番ローカル音声合成。「ずんだもん」等、キャラボイス豊富。	完全無料	【低（ローカル）】日本語アニメ声/実況系はこれで十分。

5. リップシンク・表情制御クラウド比較表

サービス名	提供元	特徴・強み	料金の目安	ローカル代替の難易度
Hedra	Hedra	1枚絵＋音声で喋り/歌い動画を作る手軽さが強い。	無料枠あり / 有料プラン	【中】代替は可能だが、自然さ・手軽さで差が出やすい。
Sync Labs	Sync Labs	既存動画に高精度リップシンクを後付けするAPI寄り。	無料枠あり / API従量制	【高】高精度後付けはローカルで破綻しやすい。
HeyGen	HeyGen	ビジネス/解説向けアバター動画が強い。多言語化にも使われる。	無料枠あり / 有料サブスク	【高】全身アバター含む制作はローカル構築が複雑。
Pika（Lip Sync等）	Pika Labs	生成→編集→リップシンクまで一気通貫の体験が強い。	無料枠あり / 有料サブスク	【高】 “一気通貫”の作業効率がローカルでは出しにくい。

6. BGM・効果音生成クラウド比較表

サービス名	提供元	特徴・強み	料金の目安	ローカル代替の難易度
Suno	Suno	ボーカル入り楽曲を指示だけで生成しやすく、完成度が高い傾向。	無料枠あり / 有料サブスク	【激高】総合品質・手軽さでクラウド優位。
Udio	Udio	音質や生音感のあるアレンジで定評。	無料枠あり / 有料サブスク	【激高】高音質楽曲生成は依然クラウド優位。
Lyria 3（Gemini）/ Lyria（Vertex）	Google	高品位な音楽生成（用途は“作曲支援/アイデア出し”寄り）。※Gemini側はLyria 3、VertexのAPI/課金表記はLyria 2中心の時期があるので注記推奨。	一部無料 / API従量制（提供形態で差）	【激高】高音質楽曲生成はクラウド優位。
ElevenLabs（SFX）	ElevenLabs	効果音生成に特化。短い指示で使える素材を出しやすい。	ElevenLabsプラン内等	【中】ローカルでも可能だが“一発の当たり”はクラウドが出やすい。
Stable Audio	Stability AI	ループや尺指定BGMに強い。ローカル向け公開モデルもあり移行しやすい側。	無料枠あり / 有料サブスク	【低〜中】ローカル移行の選択肢が比較的ある。

ローカルにおけるAI画像生成モデル

1. 静止画（画像）生成AI ローカル最新比較表

モデル・ツール名	開発元	特徴・強み（最新トレンド）	要求VRAM目安
Z-Image-Turbo	Alibaba/Tongyi	【軽量寄り×写実】少ない計算量で高い質感を狙える系。テキスト描画は主に英語/中国語が強いとされ、日本語は環境・プロンプト次第（要検証）。	8GB〜16GB（16GB推奨）
Qwen-Image	Alibaba/Qwen	テキスト描画（漢字圏）と写実寄りの肌感に定評。オープンソースで扱いやすい。	8GB〜16GB（快適は12GB+）
Kolors	Kuaishou（Kwai）	中国語/英語のテキスト描画と中国系コンテンツの理解で強いとされるオープンモデル。	12GB〜24GB（モデル/実装で変動）
HunyuanImage 3.0	Tencent	オープンソースの画像生成モデル群。中国語/英語中心だが“世代更新枠”として強い。	12GB〜24GB（モデル/実装で変動）
Hunyuan-DiT	Tencent	研究実装寄り。要件表が比較的明示されている（GPUでの必要メモリは実装次第）。	14GB+（目安）
FLUX.1 [schnell]	Black Forest Labs	1〜4 stepsの高速生成。品質と速度の両立。	8〜16GB（目安）
FLUX.1 [dev]	Black Forest Labs	プロンプト追従・破綻の少なさで強い“研究/開発枠”。	16〜24GB（量子化で下げ可）
FLUX.2 [dev]	Black Forest Labs	32Bの最新“dev”。生成だけでなく編集/複数参照も強い。非商用ライセンス。フル精度は重く、量子化やテキストエンコーダ分離などの工夫が前提。	24GB級推奨（量子化＋工夫で下げ可）
FLUX.2 [klein] 4B	Black Forest Labs	“実用ローカル枠”。高速・軽量で編集もこなす。Apache 2.0で商用OK。	13GB前後（3090/4070級〜）
FLUX.2 [klein] 9B	Black Forest Labs	kleinの高品質側。品質/レイテンシのバランスが良いが、非商用ライセンスでVRAMも重い。	29GB前後（4090以上目安）
SDXL	Stability AI	生成基盤として成熟。LoRA/追加学習資産の豊富さが最大の強み（特にアニメ/スタイル寄り）。	8GB〜12GB
SD 3.5（モデル別）	Stability AI	SDXLより新世代。品質/追従は向上傾向だが、ライセンス条件（Community License等）とモデルサイズ差に注意。	12GB〜24GB（サイズ/設定で変動）

2. 動画生成AI ローカル最新比較表

モデル・ツール名	開発元	特徴・強み（最新トレンド）	要求VRAM目安
LTX-2（/LTX-Video系）	Lightricks	【軽量志向】比較的少ないVRAMで回しやすい系。映像＋音声同期まで単一モデルで扱えるのが特徴（環境差あり）。	8GB〜16GB（高解像度/長尺は増）
Wan 2.2	Alibaba/Wan	オープン系の有力候補。複雑プロンプトや参照（I2V等）にも対応しやすい傾向。	16GB〜24GB（版/設定で変動）
Wan 2.2 Lightning	コミュニティ蒸留版	Wan 2.2系の高速化/軽量化を狙った派生。速度重視の選択肢。	16GB〜24GB（版/設定で変動）
HunyuanVideo 1.5	Tencent	オープン系の動画モデル。軽量（8.3B）で14GB級GPUもターゲットとされる。※ライセンス適用地域など条件に注意。	14GB〜（目安）
CogVideoX（2B/5B等）	Zhipu AI	テキスト理解と安定性で定評。サイズ選択で必要VRAMが大きく変わる。	12GB〜24GB（2Bは軽め/5Bは重め）
Mochi 1（Preview等）	Genmo	高品質寄りで人気。VRAMは重めになりやすい。	22GB〜（24GB推奨）

3. 動画化・アニメーション生成ローカル比較表

モデル・ツール名	開発元	特徴・強み	要求VRAM目安
AnimateDiff	有志開発	SD系（SD1.5/SDXL等）の画風を保ったまま動画化しやすい定番。ワークフロー資産が多い。	8GB〜12GB（解像度/フレームで増）
DynamiCrafter	研究系（Tencent等）	1枚絵＋テキスト指示で動き（モーション）を付与しやすい。短いループにも向く。	16GB〜24GB（目安）
EbSynth	Secret Weapons	（※厳密には生成AIではない）1枚絵のスタイルを動画全フレームへ転写する老舗。実写→アニメ化の補助で強い。	CPU中心（環境差あり）

4. 音声・セリフ生成ローカル比較表

モデル・ツール名	開発元	特徴・強み	要求VRAM目安
GPT-SoVITS	有志開発	少量音声からの高品質VC/クローンが可能な定番。学習・前処理込みだとVRAMを食いやすい。	4GB〜（学習/快適は8GB+）
F5-TTS	有志開発	ゼロショット寄りで短いサンプルから自然なTTSを狙える。構成次第で軽く動く。	2GB〜（快適は8GB+）
OpenVoice	MyShell（MIT研究発）	短い参照音声からの即席クローン。MIT Licenseで商用利用しやすいのが強み。	4GB〜（目安）
XTTS v2	Coqui	多言語クローンの定番だが、モデルライセンスが非商用なので“仕事用途”資料では注意書き推奨。	6GB〜（目安）
VOICEVOX	ヒロシバ	日本語イントネーション調整が強く、GUIが扱いやすい定番。（声クローン不可）	CPU可（GPU不要）

5. リップシンク・表情制御ローカル比較表

モデル・ツール名	開発元	特徴・強み	要求VRAM目安
LivePortrait	研究系（Kuaishou等）	1枚顔＋参照動画で滑らかな表情/首振りを作りやすい定番。※依存モデルに非商用条件が含まれる可能性があるため、商用利用は要確認。	6GB〜8GB（目安）
MuseTalk	Tencent系	リップシンクの品質・リアルタイム性が強み。軽め構成なら低VRAMでも動くことがある。	4GB〜8GB（解像度で増）
SadTalker	有志開発	1枚顔＋音声だけで簡単に口パク/まばたきを付けられる。	4GB〜8GB（設定次第）

6. BGM・効果音生成ローカル比較表

モデル・ツール名	開発元	特徴・強み	要求VRAM目安
AudioLDM 2	研究系（有志/論文実装）	音楽だけでなく効果音（SFX）や環境音生成にも使いやすい定番。	8GB〜
MusicGen	Meta	テキスト→音楽の王道。BGM用途に十分な品質を狙える。※重みはCC BY-NCで商用不可（運用注意）。	8GB〜16GB
Stable Audio Open	Stability AI	ループ/短尺素材や環境音などを生成。※商用はライセンス条件（Community License等）に依存。	12GB〜（目安）

7. 画像編集・合成（ローカル）比較表：I2I（画像→画像）中心

モデル・ツール名	開発元	役割/強み（ざっくり）	要求VRAM目安	ライセンス注意
FLUX.1 Kontext [dev]	Black Forest Labs	テキスト指示だけで画像を編集（マスク不要寄り）、参照一貫性が強い。	16GB前後〜（量子化で下げ可）	Non-Commercial（dev枠）
SDXL Inpaint + ControlNet	コミュニティ	マスク編集・ポーズ/構図制御の定番。ワークフロー資産が多い。	8〜12GB（用途で増）	モデル/拡張ごとに条件差

AI画像生成モデルの傾向

クラウドにおけるAI画像生成モデル

1. 静止画（画像）生成AI 比較表

2. 動画生成AI 比較表

3. 動画化・アニメーション生成クラウド比較表

4. 音声・セリフ生成クラウド比較表

5. リップシンク・表情制御クラウド比較表

6. BGM・効果音生成クラウド比較表

ローカルにおけるAI画像生成モデル

1. 静止画（画像）生成AI ローカル最新比較表

2. 動画生成AI ローカル最新比較表

3. 動画化・アニメーション生成 ローカル比較表

4. 音声・セリフ生成 ローカル比較表

5. リップシンク・表情制御 ローカル比較表

6. BGM・効果音生成 ローカル比較表

7. 画像編集・合成（ローカル）比較表：I2I（画像→画像）中心

3. 動画化・アニメーション生成ローカル比較表

4. 音声・セリフ生成ローカル比較表

5. リップシンク・表情制御ローカル比較表

6. BGM・効果音生成ローカル比較表