憋了几个礼拜，谷歌开发者大会信息量爆炸了-萌图百科

图片[1]-憋了几个礼拜，谷歌开发者大会信息量爆炸了-萌图百科

今天凌晨，一年一度的 Google I/O 大会在加州山景城盛大开幕了。谷歌憋了好几周的大招，终于舍得一口气放出来，直接来了一波信息轰炸。

差评也派出前线小记者，世超不仅看了大会，还近距离接触了一把谷歌 CEO Sundar Pichai。

图片[2]-憋了几个礼拜，谷歌开发者大会信息量爆炸了-萌图百科

逛完一大圈，咱这就带大家伙儿实地走进 I/O，看看谷歌都整了哪些新活儿。

图片[3]-憋了几个礼拜，谷歌开发者大会信息量爆炸了-萌图百科

总结一下，这次谷歌把能更新的全做了一遍，AI 在各种产品上的应用更是全面开花。

首先迎面向我们走来的是语言模型大军。

作为谷歌的头牌之一，自三月发布以来，Gemini 2.5 Pro 的表现一直表现非常出色，在 WebDev Arena 和 LMArena 排行榜处于全球领先的地位。

图片[4]-憋了几个礼拜，谷歌开发者大会信息量爆炸了-萌图百科

这回，谷歌在 Gemini 2.5 Pro 的基础上继续探索，加入了深度思考模式，推出 Gemini 2.5 Pro Deep Think。

虽然具体的技术细节没有公布，但从他们放出的这张图可以看出，能深度思考的 Gemini 2.5 Pro 在数学、编程、多模态推理方面的效果都十分惊人，甚至在数学上碾压了 OpenAI 的 o3。

图片[5]-憋了几个礼拜，谷歌开发者大会信息量爆炸了-萌图百科

有了好模型做支撑，谷歌尝试在这个基座上再玩点新东西。

他们通过更新 Live API 推出了原生音频输出功能，不仅能够输出人味十足的声音，还能捕捉对话的情绪，自动调整语气。

在 Gemini 的加持下，Live AI 不仅说话的声音像人，说话的内容、方式也像人。

具体效果大家可以看下面的视频：

不知道各位差友感觉如何，世超听到第十秒的恶魔低语，鸡皮疙瘩都起来了。

除此之外，谷歌还优化了侧重效率的主力模型 Gemini 2.5 Flash，推出了 AI agent —— Project Mariner。

值得注意的是，除了常规的模型更新，他们还推出了 Gemini Diffusion，不使用 Transformer 架构，表现可以和 Gemini 2.0 Flash-Lite 相当，但速度是它的五倍。

图片[6]-憋了几个礼拜，谷歌开发者大会信息量爆炸了-萌图百科

Transformer 架构虽然用了这么久，但计算成本高，速度慢，苦于没啥替代手段，大家只好将就用着。

这次谷歌用扩散模型对大模型的底层架构发起挑战，如果未来 Gemini Diffusion 在表现上还有上升的空间，这可能是一次颠覆性的革新。

大模型说完，再看看多模态生成这边，花样就更多了。

Imagen 4、Veo 3、Lyria 2 接连推出，图片、视频、音频生成，谷歌全都要。

从官方的例子可以看出，Imagen 4 遵循提示词的能力满分，能生成高达 2k 分辨率的图片，画面清晰，细节到位。

图片[7]-憋了几个礼拜，谷歌开发者大会信息量爆炸了-萌图百科

在 Imagen 3 的基础上，Imagen 4 的整体图像质量更高，对指令遵循的能力更强，速度更快。

视频方面，Veo 3 不仅在 Veo 2 的基础上质量升级，还是首款带音频的视频模型，不仅自带对话，如果需要，也可以来点背景音乐。

结合生成的提示词来看官方的案例，Veo 3 对场景氛围、对话语气和人物动作表情的理解都很出色，生成的视频非常自然。

图片[8]-憋了几个礼拜，谷歌开发者大会信息量爆炸了-萌图百科

最后是 Lyria 2 的音频生成，同样很惊艳。

不得不说，Lyria 2 生成的这段秘鲁风格的舞曲，鼓点、电吉他、贝斯相辅相成，节奏明快，旋律流畅，丝毫没有 AI 痕迹。

目前，Imagen 4 和 Lyria 2 已经在谷歌的 Vertex AI 平台上线，Veo 3 可以加入 waitlist，感兴趣的差友可以去体验一下。

如果说咱上面看过的都属于零部件，而下面要说的，是谷歌怎么把这些零件组合起来，融入产品，把 AI 产品赋能体现得淋漓尽致。

首当其冲的，就是谷歌在搜索业务上推出的 AI mode。

自 2022 年 ChatGPT 问世，大模型对谷歌的核心搜索业务来了一轮狂风巨浪的冲击。

打不过就加入，谷歌这回直接把 Gemini 嵌进传统搜索，利用大模型的多模态和推理能力，把用户想要的整理好，直接喂到嘴里。

图片[9]-憋了几个礼拜，谷歌开发者大会信息量爆炸了-萌图百科

AI mode 底层使用谷歌的查询扇出技术 (query fan-out)，可以把问题分解成子主题，同时进行多个查询，深入互联网寻找答案。

谷歌表示，加入了 AI 概览以后，用户对搜索的内容满意度更高，使用频率上升了 10%，这是十年来搜索领域最成功的探索之一。

看来传统搜索加点 AI，还是能挽回用户的心的。

除了搜索，谷歌还把多模态生成技术揉一揉，用 Veo + Imagen + Gemini 搓出了一个电影制作工具 Flow。

图片[10]-憋了几个礼拜，谷歌开发者大会信息量爆炸了-萌图百科

Flow 可以用 Gemini + Imagen 生成图像，再用 Gemini + Veo 根据图像二次创作视频，还能进行故事续写。

从官方案例来看，Flow 的画面表现力确实很优秀。难道失业的风也要吹到导演了吗。。。

不止软件更新，摸得着的数码电子产品也是有的。

谷歌把老项目裸眼 3D Starline 全面升级为 Google Beam，使用六个摄像头从不同角度捕捉画面，再利用 AI 算法把视频流整合，投射在 3D 显示屏中。

图片[11]-憋了几个礼拜，谷歌开发者大会信息量爆炸了-萌图百科

不过，Google Beam 这次更新最大的亮点还是它的实时翻译功能。

这项新功能可以让不同国家的人使用母语通话，即使对方听不懂你在说啥，他们也能听到实时生成的翻译。

还有一个意想不到的产品在这次大会秽土转生了，那就是谷歌 2023 年已经宣判死刑的 Google Glass。

这回谷歌终于放弃之前那套自己搞硬件的想法，而是只干自己擅长的活儿 —— 系统，然后跟咱们国内的 Xreal 合作，推出了基于 Android XR 平台的最新眼镜产品：Project Aura。

图片[12]-憋了几个礼拜，谷歌开发者大会信息量爆炸了-萌图百科

Android XR 作为下一代计算设备的系统，结合了谷歌这么些年来在 AI 、VR 和 AR 等方面的技术积累，让头显和眼镜迎来了 Gemini 时代。

Project Aura 支持 AI 的实时翻译，还能进行发短信操作，识别摄像头看到的东西做搜索和问答，并且具备记忆能力。

有了谷歌的入场，接下来的智能眼镜领域应该会有好戏看了。

盘了这么多，其实这次 Google I/O 的内容还远远没有说完，他们还是太全面了。

除了上面已经提到的，还有编程智能体 Jules、和 Shopping Graph 结合的一键 AI 试衣、Firebase 升级、SynthID 数字水印、可以在手机上跑的大模型 Gemma 3n、办公可用的 NotebookLM 等等等等。

图片[13]-憋了几个礼拜，谷歌开发者大会信息量爆炸了-萌图百科

东西太多，怕大家破产，谷歌还贴心地推出了 Google Ultra 订阅套餐，每月仅需124.99 刀，Google 全家桶带回家！

图片[14]-憋了几个礼拜，谷歌开发者大会信息量爆炸了-萌图百科

总的来说，一场 I/O 大会，可以看出谷歌作为科技巨头的野心。

背靠优秀的人才和庞大的资金，谷歌什么都要做，还要做得好。

他们早就摆脱了当年被大模型降维打击的被动局面，转守为攻，可以从容地等待别人去探索市场、试错，时机成熟后再快速入场，找到自己的节奏。

AI 竞赛还在如火如荼地进行，而这次大会，秀的可能不只是当下的技术。想要保住龙头的地位，更重要的,还有谷歌在 AI 领域的广阔布局和长远思考。

撰文：莫莫莫甜甜

编辑：江江 & 面线

美编：萱萱

图片、资料来源：

不咕笔记

前线记者西西

差评硬件部

谷歌黑板报公众号

X、Youtube

https://mp.weixin.qq.com/s/-9Feb31tvo-598XTIAG1xw

https://blog.google/technology/google-deepmind/google-gemini-updates-io-2025/#performance

https://cloud.google.com/blog/products/ai-machine-learning/announcing-veo-3-imagen-4-and-lyria-2-on-vertex-ai

图片[15]-憋了几个礼拜，谷歌开发者大会信息量爆炸了-萌图百科

THE END

优知道
# 谷歌 # gemini

喜欢就支持一下吧

憋了几个礼拜，谷歌开发者大会信息量爆炸了

请登录后发表评论