“ Gemini简介谷歌DeepMind推出了Gemini,这是一系列突破性的人工智能模型,推动了多模态人工智能的边界。Gemini代表了人工智能能力的重大飞跃,在语言、图像、音频和视频任务中展现出卓越的表现。
Gemini系列包括三个主要模型:
- Gemini Ultra:最强大的模型,旨在处理高度复杂的任务
- Gemini Pro:针对广泛任务优化的可扩展性能
- Gemini Nano:用于设备端人工智能应用的高效模型
Gemini的独特之处在于其原生的多模态能力——这些模型从一开始就共同训练不同类型的数据,而不是将单独的模型结合在一起。这使得Gemini能够无缝理解和推理不同模态之间的关系,以前所未有的方式进行处理。
“ 模型架构与能力Gemini基于增强的Transformer架构,具有能够在大规模下稳定训练的改进。一些关键能力包括:
- 32,000个标记的上下文长度,用于处理长输入
- 高效的注意力机制,如多查询注意力
- 能够处理交错的文本、图像、音频和视频序列
- 原生图像生成,无需依赖中间文本描述
这些模型能够理解和推理多样化的输入,如自然图像、图表、屏幕截图、PDF和视频。对于音频,Gemini可以直接处理16kHz的音频信号,捕捉到文本转录中丢失的细微差别。
Gemini的架构使其能够在各个领域(语言、视觉、音频)中结合强大的表现,并进行跨模态推理,这是以前的人工智能系统所未见的。
“ 评估结果Gemini Ultra在语言、推理、数学、编码和多模态任务的32个广泛使用的学术基准中取得了30个的最先进结果。一些显著的结果包括:
- 在MMLU上达到90.0%的准确率,成为第一个超越人类专家表现的模型
- 在GSM8K(小学数学)上达到94.4%的准确率
- 在MATH(竞赛数学问题)上达到53.2%的准确率
- 在HumanEval(Python编码)上达到74.4%的通过率
在新的MMMU基准测试中,Gemini Ultra在跨学科的大学水平知识测试中得分62.4%,比之前的最佳成绩高出5个百分点。
在多语言和多模态任务中,Gemini同样表现出色:
- 在多语言数学(MGSM)和摘要(XLSum)基准上表现出色
- 在视频理解任务如VATEX和ActivityNet-QA上取得最佳结果
- 在音频任务上表现强劲,超越了专门的语音模型
原始链接:https://assets.bwbx.io/documents/users/iqjWHBFdfxIU/r7G7RrtT6rnM/v0
评论(0)