GPT-4o图像生成的秘密大揭秘:OpenAI未公开的技术细节被网友破解
在社交媒体平台上,GPT-4o创造的图像实例屡见不鲜。即便用户没有专业的PS技巧,也能利用它成为绘图达人。然而,其图像生成技术至今仍是公众热议的焦点。我们即将对此进行深入解析。
技术基本信息
GPT-4o的图像生成相关内容仅在第13页的附录中进行了概述。该技术与DALL・E所用的扩散模型方法相异,它采用的是嵌入在大型语言模型中的自回归模型。尽管如此,目前关于这一技术的公开资料相当有限,众多专家主要依据图像生成流程进行推测和探究。Jon,作为谷歌的研究人员,通过分析GPT-4o的图像生成过程,推测该系统可能融合了多种尺度技术和自回归策略。
前端展示真相
刘杰,香港中文大学博士生,在探究GPT-4o前端技术时,发现用户所观察到的逐行生成的图像效果,实际上只是浏览器前端显示的动画。这一动画并不能全面展示图像生成的全部过程。实际上,在每次生成过程中,服务器仅向用户端发送了5张中间图像。这一研究成果揭示,在分析GPT-4o运作机制的过程中,前端呈现的成效不能作为判断的可靠依据。
原理推断方向
目前,对GPT-4o图像生成功能的预测主要集中于两点:一是融合自回归与扩散生成技术的策略;二是运用非扩散技术的自回归生成方法。来自CMU的Lee博士提出,GPT-4o首先生成视觉标记,然后通过扩散模型将其解码至像素层面。他补充说明,GPT-4o运用了一种与分组扩散解码器类似的策略进行扩散,其解码顺序是从上到下逐步进行。这一解码顺序与GPT-4o先生成图像上半部,随后构建整个图像的步骤相吻合。
自回归特征体现
Peter,作为公司的AI主管,提出GPT-4o的生成机制与文本生产过程相仿,其从图像顶端token起步逐步构建。这一模型属于自回归类别,通过反复逐像素生成来形成图像。相较于稳定扩散、DALL-E等依赖扩散过程的模型,后者是将噪声直接转化为清晰图像。从理论层面来看,自回归模型在操作概念理解和泛化能力方面具有优势。
空间场景优势
GPT-4o 在理解操作原理方面表现出色,并且具有出色的泛化能力。它能通过分析信息之间的语境关联来学习,并在经过特定编辑后,产生与输入数据相似的结果。此外,GPT-4o 还拥有广泛的空间和场景感知能力。与此相对,扩散系统在处理随机噪声时有限,且在空间和场景理解上存在欠缺。GPT-4o 在应对复杂图像任务方面,表现出了更为显著的优越性。
可能辅助模型
芬兰赫尔辛基大学的Luigi副教授指出,GPT-4o在token预测上主要依靠GPT技术。尽管其图像生成能力已具备,但尚未对外公开。他还提及,可能使用了扩散模型或修饰模型对图像细节进行调整或补充。这些信息为研究GPT-4o的图像生成功能提供了新的研究视角。
关于 GPT-4o 的图像生成技术,请问您倾向于哪种分析途径?欢迎您提出宝贵意见。此外,也请对这篇文章给予点赞,并分享给更多人。