拡散モデルとは?
読み: かくさんモデル英語: Diffusion Model
ノイズから段階的にノイズを除去して画像・動画・音声を生成する深層生成モデル。現代の画像生成 AI の主流技術。
詳しい解説
拡散モデル (Diffusion Model) は、学習時に画像にガウシアンノイズを段階的に加えていき、生成時にはその逆過程 (ノイズ除去) を学習したニューラルネットワークで実行することで、高品質な画像・動画・音声を生成する深層生成モデルです。
2020 年代以降に DDPM・Stable Diffusion・Imagen・DALL-E 3・Flux などで実用化され、GAN や VAE を上回る品質と多様性で画像生成 AI の主流技術となりました。 動画 (Sora)、音声 (AudioLDM)、3D など他のモダリティにも応用が広がっています。
テキスト条件付きの Text-to-Image 拡散モデルでは、Text Encoder で得た埋め込みを Cross-Attention で取り込み、ノイズ除去過程に反映することでテキスト指示に沿った画像を生成します。
この分野を学べる生成AIスクール
拡散モデルを含む生成AIのスキルを体系的に身につけたい方は、AI HACK のスクールランキングをご活用ください。