谷歌Gemini大模型发展历程，开发者企业客户必看

admin AI新闻 2026-05-31 4

2023年5月, 这款大模型于I/O大会之上, 进入了「即将推出」这样的状态。

2023年12月6日, 是当地时间, 谷歌CEO桑达尔・皮查伊, 官宣Gemini 1.0版正式上线, 是1。

发布会现场

2023年12月13日起, 开发人员能够通过Google AI Studio中的Gemini API访问Gemini Pro1, 企业客户也能够通过Google Cloud Vertex AI中的Gemini API访问Gemini Pro1。

2024年2月, 谷歌发布了新闻稿, 宣布推出全新的Gemini 1.5 AI模型, 这标志着该公司的人工智能技术取得了重大飞跃。该公司表示, 1.5 Pro能够一次性处理大量信息, 这其中包括1小时的视频, 还包括11小时的音频 , 以及超过3万行代码的代码库, 或者超过70万字的文字。

在2024年这一年的5月15日那天, 谷歌对外宣称Gemini 1.5 Pro实现了升级, 升级幅度达到200万tokens, 并且还全面对Workspace予以支持, 与此同时, Gemini 1.5 Pro朝着全球范围内的开发者进行开放。 4。

主要功能

Gemini在设计之际, 原生就支持多模态, 从起始之时, 便于不同模态之上开展了预训练, 而后借助额外的多模态数据加以微调, 用以提升有效性, 所以, Gemini能够毫无缝隙地理解以及推理各类输入, 远比现有的多模态模型出色，而且它的能力在几乎每个领域都是最为强大的1。

复杂推理能力

具有能够帮助理解复杂书面与视觉信息的复杂多模态推理能力的 Gemini 1.0, 对海量数据中难以辨别的知识尤其擅长发现, 它通过阅读、过滤以及理解信息拥有了从数十万份文件里提取 insights 的超凡能力, 这助力包括科学、金融等诸多领域能以超快速度取得新突破。

同时理解文字、图像、音频以及更多模态的信息

Gemini 1.0在经过训练之后, 能够同时对文本、图像、音频等予以识别以及理解, 所以它能够更为全面地去理解输入之中信息的细节, 并且还能够回答跟复杂主题会有关联的一些问题。所以, 它在对数学和物理等复杂学科的相关问题进行推理方面特别擅长。

一个老师, 画了一个物理问题, 是关于滑雪者从斜坡上下来的, 如图所示, 有个学生提出了一个计算滑雪者在斜坡底部速度的解决方案, 利用Gemini的多模态推理能力, 这个模型能读懂凌乱笔迹, 能正确理解问题表述, 会把问题和解决方案都转换为数学公式, 能识别出学生解决问题时出错的具体推理步骤, 之后给出问题的正确解决方案。

物理问题

高级编码

Gemini能够理解, 能够将流行编程语言（像Python、Java、C++、Go）的高质量编码进行解释以及生成, 它拥有强大的跨语言以及工作和推理复杂信息的能力, 这使得它成为世界领先的编码基础模型当中的一个。

Gemini Ultra在多个编码基准测试里展现出佳绩, 其一为HumanEval, 它是用于评估编码任务性能的关键行业标准, 其二是Natural2Code, 这是谷歌内部数据集, 该数据集所采用的是作者生成的源代码, 而非基于网络的信息。

标签： Gemini大模型发展历程多模态推理高级编码企业客户