站点图标 Linux-技术共享

GPT-4o 的新的图像模型生成原理:自回归模型

GnMezBWWsAApmRK

GPT-4o 的新的图像模型生成原理:自回归模型究竟是什么?为什么它如此惊艳?
你可能听说过OpenAI最新发布的GPT-4o能够流畅生成高质量图片但与过去大热的Midjourney、DALL·E、Stable Diffusion这些“扩散模型(Diffusion Models)”不同GPT-4o的图像生成采用了一种看起来简单却充满魔力的方式:自回归模型(autoregressive model)。
那么自回归到底是什么意思?GPT-4o又如何做到逐像素、逐区域地生成清晰图片?
什么是自回归图像生成?
我们先从“自回归”这个词开始拆解:
• “自”(Auto) 意味着自动模型不需要额外干预;
• “回归”(Regressive) 意味着模型会根据之前已经生成的信息去预测后续的信息。
打个简单比方:
你正在手绘一幅画你不会一下子就画出完整的画面而是会从一小块区域逐渐向外扩展每一笔都是基于之前你所画的内容来决定下一笔的走向。
自回归模型的核心思想与这个绘画过程类似。具体到GPT-4o就是:
• 模型从顶部开始依次往下逐行生成画面;
• 在每一步模型参考之前已生成的像素信息预测下一个像素(或像素组)的内容;
• 如此不断循环逐步描绘出完整图像。
这与扩散模型完全不同扩散模型就像是先把纸上泼满了颜料(噪声)再一步一步地擦去不需要的部分直到剩下一幅清晰的画。
为什么要用自回归而非扩散?
扩散模型虽然出色但有明显缺点:
• 一开始全是噪点无法在初期看到图像的任何轮廓。
• 在生成过程中很难逐步“引导”更多的是一次性成像。
• 难以在过程中进行细致的修改与编辑。
而GPT-4o自回归的生成方式有两个明显优势:
1. 更强的连贯性(Coherence)
由于每一步生成时都会参考之前生成的内容GPT-4o对图像的连贯性控制更精细。就像我们写文章时先列个提纲再逐段写下来每句话都与上文紧密相连自然更加流畅。
举个生活化的例子:
假如你请AI画一只猫如果用扩散模型它可能一开始呈现的只是模糊的一团猫咪的形态在很后期才逐渐明朗;但GPT-4o则会在最开始就勾勒出猫咪的大致轮廓然后再慢慢细化每个细节比如眼睛、耳朵、毛发这种方式让生成过程更“人性化”。
2. 更精准的编辑能力
自回归的另一个巨大优势是可以精准地实现局部修改。因为图像是按顺序生成用户可以随时介入修改局部的部分AI随后生成的区域都会根据这个修改的内容自动适应。
比如:
假设AI正从上到下生成一张风景画你在画到中途突然想让天空中多一些云彩你只需要在生成天空的阶段做出指示AI就可以在下一步中立即调整生成符合你期望的云朵形状而不必重新从头生成整幅图像。
从实际的生成过程看GPT-4o

GnMe9cdXgAAs99l
透过ChatGPT的网页端我们可以用浏览器自带的开发者工具观察到一些很有趣的细节:
• 从上到下逐行生成
GPT-4o生成图像的过程就像绘画时从顶部开始逐渐填充内容。
• 初始轮廓迅速显现随后逐步精细化
这类似于画家先快速勾勒出构图的大致轮廓随后逐渐增加细节。
• 局部已生成的区域可能会被反复调整
即使局部区域已经生成后续的生成过程依旧可能对这些区域作出较大调整这表明模型有明显的全局连贯性优化策略——就像作家写完一段话后也可能反复修改前面的文字以使全文更加流畅。
• 生成简单图像明显更快
如果你只是要求生成一颗简单的苹果模型几乎瞬间就能呈现;但如果你希望生成一幅复杂场景(如喧嚣的城市街景)过程会明显更久中途还会显示多个“中间图像”说明GPT-4o内部可能还利用了一种称为“投机解码”(speculative decoding)的技术提前预测多个步骤的结果并进行修正从而提升效率。
• 额外的背景移除机制
GPT-4o似乎具备某种外部背景去除能力:最初它会显示“伪透明”的方格背景而真正的背景移除在生成结束后才完成这个步骤明显是模型外部追加的后处理程序而非GPT-4o本身固有的特性。
技术难点与实现的奇迹
OpenAI成功实现这种模型的最大难度是如何在自回归生成方式中兼顾生成质量和速度。自回归模型通常要求庞大的参数量和计算资源来保持图像质量而GPT-4o竟然做到既快速又高质让不少业内人士感叹:
“GPT-4o竟然用自回归方式做出了扩散模型一样甚至更好的效果实在令人难以置信。”
这一实现背后必然包含了极其高效的模型设计和优化算法。

对于普通人这意味着什么?
GPT-4o的成功代表着AI图像生成技术迈入了一个全新的阶段:
• 我们可以更轻松地进行交互式设计让AI快速而精准地生成想要的内容;
• 它将使图片编辑变得更加直观就像与AI一起逐步绘画随心所欲地调整每个细节;
• 甚至可能引领未来的视觉创意领域让创作者不再拘泥于一次性的图片生成而是享受随时交互、随时调整的自由创作。
最终这种技术的突破既是计算机科学的成就也是在提示我们:
“技术真正的进步并非为了替代人类而是为了给每个人手中都放上更好的‘画笔’以更自由的方式描绘属于自己的世界。”
或许 GPT-4o 告诉我们的不只是AI能够做到什么而是我们真正想要如何运用它。

退出移动版