OpenAI近日宣布,将其最新的图像生成器整合进旗舰语言模型GPT-4o中,推出了“4o Image Generation”这一新功能。该功能不仅能够生成精美的图像,还特别强调实用性,能够产生精准、逼真且符合用户需求的视觉内容,预计将会改变人们使用AI进行图像创作的方法。
自Open首席人工智能官上任以来,公司将图像生成视为语言模型的重要能力之一,因此致力于开发最先进的图像生成器,并将其与GPT-4o模型完美结合。OpenAI指出,这一功能的目标不仅仅是艺术创作,更希望成为一个强大而实用的工具,帮助用户在不同场合下更加高效地进行沟通与表达。
OpenAI在官方博客上展示了40种图像生成的应用场景,包括模拟白板会议记录、生成富有意义的文本图像、创作趣味漫画,以及复杂的科学实验图解,GPT-4o均能够轻松处理,展现出其强大的多模态能力。
例如,用户上传一张写满方程式和笔记的白板照片,GPT-4o不仅能够理解照片中的内容,还能根据用户的指示,将其转化为更清晰易懂的图表。此外,GPT-4o还能够根据零散的文本,自动创作富有创意的磁性诗词图像,甚至能根据简单的文字描述,创作连环漫画。比如说,如果描述小蜗牛想买跑车的幽默故事,GPT-4o就能自动生成生动的四格漫画,形象地展现故事情节。
OpenAI强调,4o图像生成功能具有出色的指令遵循能力,能够准确按照用户的提示生成图像,并且注重细节。与其他系统在处理大量对象时可能遇到的困难相比,GPT-4o据说能够同时处理多达10到20个不同的对象,并更加精准地将这些对象的特性及其相互关系融入图像中,帮助用户更好地控制图像生成的结果。
此外,4o图像生成功能已原生集成于模型中,用户可以通过自然对话逐步优化图像。GPT-4o可以理解聊天中的图像和文本信息,并在多轮迭代中保持图像风格的一致性,这在需要频繁调整和实验的场景中,如设计游戏角色时,尤为实用。
OpenAI特别指出,GPT-4o在文本渲染方面有了显著提升,认为“一图胜千言”,但适当加入精确的文本能够更好地增强图像的深意。GPT-4o能够将准确的符号与图像完美结合,使其成为一种更为强大的视觉交流工具。
原生图像生成能力使得GPT-4o能够将丰富的知识库与图像创建过程结合,产生更智能和高效的结果。例如,用户可以请求GPT-4o根据程序代码生成可视化图表,或根据食谱文字生成鸡尾酒的图像,甚至可以生成天气信息图表或鲸鱼种类指南。
尽管4o图像生成功能非常强大,但OpenAI也承认目前模型仍存在裁剪、幻觉和图表生成错误等局限性,将在未来的版本中继续进行改进。
OpenAI重视其人工智能模型的安全性和伦理问题。在追求创作自由的同时,严格遵循安全标准,以防止模型被用于生成有害内容。所有由GPT-4o生成的图像都会附加C2PA元数据,以标明图像来源,增强透明度。
OpenAI宣布,从今天开始,4o图像生成功能将逐步向ChatGPT Plus、Pro、Team和Free用户开放,并将在不久的将来提供给Enterprise和Edu用户。此外,该功能还将集成到Sora平台。开发人员未来几周内也将通过API访问4o图像生成功能。
用户只需像聊天一样与GPT-4o交流,描述想要的图像细节,即可轻松创建和定制图像。由于GPT-4o生成的图像细节更加丰富,因此渲染时间可能会稍长,通常大约需要一分钟。
OpenAI认为,4o图像生成功能将为用户提供全新的创作体验,并推动图像生成技术的发展。随着这一功能的广泛应用,预计各个领域将涌现出更多由AI驱动的创新应用。