谷歌AI全面进化:Gemini2.5开启“深度思考”,视频生成模型Veo 3硬刚Sora

谷歌AI全面进化:Gemini2.5开启“深度思考”,视频生成模型Veo 3硬刚Sora

凤凰网科技讯 5月21日,2025谷歌I/O开发者大会主论坛演讲今日凌晨举行,谷歌宣布了其在人工智能领域的最新进展,核心围绕Gemini 2.5系列模型的升级及其在多款产品中的深度整合。公司强调,AI技术的迭代速度正显著加快,旨在尽快将最先进的模型能力推向用户和开发者。

在模型层面,Gemini 2.5 Pro和2.5 Flash都迎来了能力提升。据称,自初代Gemini Pro发布以来,Elo等级分已提高300多分,目前的Gemini 2.5 Pro在LMArena排行榜上占据首位,并在流行的编码排行榜WebDev Arena上名列前茅,Elo分数为1415。此外,2.5 Pro 在与教育专家合作构建的学习模型系列LearnLM的评估中也表现出色。

针对更复杂的任务,谷歌正在探索一种名为Deep Think的实验性增强推理模式,它利用新的研究技术,使模型在回应前考虑多种假设,目前已在部分数学和编程基准测试中显示潜力,正在进行额外的安全评估。作为效率主力模型的2.5 Flash,则在推理、多模态、代码和长上下文等关键基准测试中得到改进,同时效率更高,在评估中使用的令牌数量减少了20-30%。

图片[2]-谷歌AI全面进化:Gemini2.5开启“深度思考”,视频生成模型Veo 3硬刚Sora-萌图百科

Gemini 2.5系列模型还引入了多项新功能。其中,原生音频输出功能和Live API的改进,支持更自然、富有表现力的对话体验,包括情感对话、主动音频和思考能力。文本转语音功能也得到增强,支持多位说话人,且能捕捉细微差别,现已在Gemini API中可用。

备受关注的Project Mariner的计算机使用功能正被引入Gemini API和Vertex AI,计划于今年夏天更广泛地推出供开发者实验。同时,模型的安全性也得到提升,显著增强了对间接提示词注入攻击等威胁的防护。开发者体验方面,模型推理摘要和推理预算功能被引入,以提供更高的透明度和控制能力。

AI能力正被深度融入谷歌的核心产品中。尤其是在搜索领域,AI Overviews已覆盖超过15亿用户,并在200个国家和地区推出。谷歌正在美国推出全新的AI Mode,为用户提供端到端、更智能的AI搜索体验,支持更长、更复杂的查询和后续提问,并计划于本周开始在美国地区的搜索中整合Gemini 2.5 模型。

Gemini应用本身也正在向通用AI助手转型。去年在研究原型 Project Astra 中首次展示的摄像头和屏幕共享功能,现已整合到Gemini Live中,并向所有Android用户开放,今日开始向iOS用户推出。应用中还将很快向订阅者推出实验性的Agent Mode,帮助用户执行多步任务,例如跨网站搜索公寓房源。

此外,谷歌正在探索利用“个人上下文”技术提升个性化体验,允许模型在用户许可下私密地访问相关个人数据(如邮件、文档),用于生成更贴合用户风格的回复,例如 Gmail中推出的个性化智能回复,预计今年晚些时候向订阅者提供。

除了核心模型和应用,谷歌还将多项前沿研究转化为实际产品。此前展示的3D视频技术Project Starline演变为Google Beam,这是一个AI驱动的视频通信平台,通过多摄像头阵列和AI生成逼真的3D体验,首批设备将于今年晚些时候与惠普合作提供给早期客户。

Google Meet也正在推出通过语音翻译打破语言障碍的功能,目前英语和西班牙语的 Beta版已向部分订阅者开放,更多语言和企业客户测试将陆续推出。

在生成式媒体领域,谷歌发布了全新视频生成模型Veo 3和图像生成模型Imagen 4。Veo 3首次实现了视频原生音频生成,可创建环境音效和角色对话,为视频创作提供了全新可能。Imagen 4则在图像质量和文字排版方面实现了跨越式提升。

Google还推出新型AI电影制作工具Flow,整合了Veo、Imagen和Gemini多个模型,旨在帮助创作者从构思到成片全流程创作,该工具已向Google AI Pro和Ultra订阅用户开放。为应对AI生成内容识别难题,谷歌继续使用SynthID为生成内容添加不可见水印,并推出专门的检测工具。

公司指出,这些进展得益于其领先的基础设施,包括专为大规模思考型和推理型 AI 工作负载设计的第七代 TPU Ironwood。数据显示,谷歌通过不同产品和API处理的token量已从去年同期的每月9.7万亿增长到目前的480万亿以上,开发者数量增长五倍。这些都表明AI正以前所未有的速度被世界各地的个人、企业和社区所拥抱。

谷歌持续在基础研究上加倍投入,致力于推动实现通用人工智能(AGI)和构建能够理解世界的“世界模型”并强调在每一步都将安全和责任置于工作的核心。

THE END
喜欢就支持一下吧
点赞8 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容