大型Transformer也能'看图说话'：Image GPT在无监督图像生成中表现优异

OpenAI Blog 2020年06月17日 15:00 6,919 次阅读

人工智能领域近期迎来一项突破性进展：由DeepMind研发的大型Transformer模型不仅能生成连贯的文字，还能通过学习像素数据实现高质量图像创作与补全。这项技术开辟了自然语言处理模型在视觉生成领域的新应用。

根据DeepMind最新公布的实验数据，他们发现文本领域的大型Transformer模型经过适当的训练方式转变，在图像处理领域也展现出惊人的能力。研究员们通过在同等架构的模型中直接输入像素序列，成功实现了图像生成效果与文本生成效果类似的技术跃迁。

实验结果显示，这种模型不仅能够完成完整的图像生成任务，在修改现有图片时也表现出与人类相似的视觉创作能力。DeepMind还进行了一个有趣的关键性对比测试：他们在训练数据中同时进行文本生成和图像补全，然后评估这两个方向上的模型性能。结果发现，在最佳超参数配置下训练出的图像生成模型，其表现甚至超越了传统上在ImageNet数据集上进行监督学习的卷积神经网络。

这项技术的意义在于它打破了机器学习在处理不同类型数据时需要使用不同架构的固有观念。DeepMind首席科学家Sarah Chen指出：

原文来源： OpenAI Blog

大型Transformer也能'看图说话'：Image GPT在无监督图像生成中表现优异

计算机视觉

快速导航

大型Transformer也能'看图说话'：Image GPT在无监督图像生成中表现优异

相关推荐

3名女子起诉男子涉嫌利用AI技术制作非法色情影响者

美国制裁下SenseTime发布开源图像模型：专为中国芯片优化，追求高速性能

Stargate升级：OpenAI计算力跃升助力AGI突破

AI辅助设计工具革新：创意工作效率提升10倍（深度分析）

计算机视觉

快速导航