谷歌近日发布其大模型矩阵的最新力作——Gemini 1.5,并将上下文窗口长度扩展到100万个tokens。
Gemini 1.5 Pro达到了与1.0 Ultra相当的质量,同时使用了更少的计算。该模型在长语境理解方面取得突破,能够显著增加模型可处理的信息量——持续运行多达100万个tokens,实现迄今任何大型基础模型中最长的上下文窗口。
这意味着Gemini 1.5 Pro可一次处理大量的信息——包括1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库。
从今天开始,谷歌将通过AI Studio和Vertex AI向开发者和企业客户提供Gemini 1.5 Pro的有限预览版。
此外,谷歌透露其在研究中还成功测试了多达1000万个tokens。
AI模型的“上下文窗口”由tokens组成,这些tokens是用于处理信息的构建块。上下文窗口越大,它在给定的提示中可接收和处理的信息就越多,从而使其输出更加一致、相关和有用。
通过一系列机器学习创新,谷歌将上下文窗口容量大大增加,从Gemini 1.0最初的32,000个tokens,增加到1.5 Pro的100万个tokens。
Gemini 1.5 Pro带有标准的128,000个tokens的上下文窗口。从今天开始,有限的开发人员和企业客户可通过AI Studio和Vertex AI在私有预览中试用多达100万个tokens的上下文窗口。当推出完整的100万个tokens上下文窗口,谷歌正在积极地进行优化,以改善延迟,减少计算需求并增强用户体验。
Gemini 1.5构建于谷歌对Transformer和MoE架构的研究基础之上。传统的Transformer是一个大型神经网络,而MoE模型被分成更小的“专家”神经网络。
根据给定的输入类型,MoE模型学会选择性地激活其神经网络中最相关的专家路径。这种专业化极大地提高了模型的效率。谷歌一直是深度学习的MoE技术的早期采用者和研发先驱。
谷歌在模型架构上的最新创新使Gemini 1.5能够更快地学习复杂的任务并保持质量,同时更有效地进行训练和服务。这正帮助其团队以更快的速度迭代、训练和交付更先进的Gemini版本。