谷歌DeepMind团队发布的Gemini Ultra模型在MMLU、HumanEval等多个权威基准测试中都取得了优异成绩。
该模型采用原生多模态架构,能够同时处理文本、图像、音频和视频,展现出强大的跨模态理解能力。
在代码生成任务中,Gemini Ultra的性能较上一代模型提升了60%,被业界视为GPT-4的有力竞争者。
技术团队介绍,Gemini Ultra的训练数据量是前代模型的三倍以上,涵盖了超过100种语言的文本和代码。这使得模型在处理多语言任务时表现出色,特别是在中文、日文等亚洲语言的理解上进步明显。
在MMLU(大规模多任务语言理解)测试中,Gemini Ultra达到了92.5%的准确率,略高于GPT-4的91.8%。在代码生成基准HumanEval上,Gemini Ultra的首次通过率达到了85.3%,也超过了GPT-4的81.2%。
多模态能力是Gemini Ultra的一大亮点。模型能够在同一个对话中无缝切换文本、图像和音频输入,理解不同模态之间的关系。例如,给定一张图表和一段文字描述,模型能够准确回答跨模态的复杂问题。
谷歌还宣布,Gemini Ultra将被集成到其多个产品中,包括搜索引擎、云服务和Workspace办公套件。业内预计,这将对AI助手市场竞争格局产生重大影响。
不过,也有研究人员指出,基准测试成绩并非衡量模型能力的唯一标准,实际应用场景中的表现才是关键。谷歌表示将在接下来几个月内逐步开放Gemini Ultra的API访问。