2024年谷歌I/O 发布会 Gemini AI成最大亮点，还有最新AI技术和Pixel 8a手机重磅发布！附开发者大会链接

hzqadmin 阅读：87 2024-08-11 19:56:18 评论：0

前言

昨天的谷歌开发者大会（Google I/O 2024）可是信息量爆炸！

这两天真是科技界的盛宴，昨天是 OpenAI 发布会，今天是谷歌的开发者盛会，24年近2小时的谷歌开发者大会说了什么？小编整理了一下会议重点，我们一起看看有什么值得关注的信息，文末附了观看网址~

大会开始时间？

Google的年度开发者盛会，I/O 2024，于美国太平洋时间5月14日上午10点在加州山景城的Shoreline Amphitheatre盛大开幕。Alphabet CEO桑达尔·皮查伊（Sundar Pichai）的主题演讲开启了今年的大会，聚焦人工智能的最新进展。

关闭

观看更多

退出全屏

视频加载失败，请刷新页面再试

刷新

视频详情

为什么每一年的 Google I/O 都会有这么多人关注？

Google I/O是谷歌每年举办的一次重要活动，专门向全球开发者和科技爱好者展示最新的技术和产品。就像科技界的春晚，每年的I/O都会引发全球的关注和讨论。这次大会上，谷歌展示了从智能手机到人工智能的一系列重大更新。

大会上有哪些亮眼的产品发布？

推出LearnLM AI模型助力学习；YouTube新增AI测验；Gemma 2模型将升级至270亿参数；Google Play引入新发现功能；Android将内置通话诈骗检测；Google Photos将通过AI增强搜索；Gmail集成Gemini AI技术；Gemini Live提供深度语音聊天；Chrome内置Gemini Nano；Android集成Gemini AI；Google Maps引入Gemini模型；TPU性能提升；搜索功能增强AI；Imagen 3模型升级；Project IDX开发环境公测；Veo AI模型生成视频；Circle to Search功能增强；

挑几个重磅产品一起了解一下吧~

Gemini AI

谷歌在官网上宣布已经全面进入 Gemini 时代~ 本次大会也是重头戏，让我先来看看 Gemini AI 的进展~

官网上提到

十多年来，谷歌一直在 AI 领域进行投入，并在各个层面进行创新如研究、产品、基础设施，但尽管如此，他们仍处于 AI 平台转型的初期。他们看到了为创作者、开发者、初创公司以及每一个人所带来的巨大机遇。帮助推动这些机遇正是 Gemini 时代的意义所在！

回顾一下 Gemini 的发展

一年前，也是在 I/O 大会上，首次分享了 Gemini 的计划：一个从一开始就构建为原生多模态的前沿模型，能够跨文本、图像、视频、代码等多种数据类型进行推理。它标志着将任意输入转换成任意输出的重要一步，新一代的“I/O”。

而 Gemini 模型，是谷歌迄今为止功能最强大的模型！在那时的2月后，又推出了 Gemini 1.5 Pro，它在处理长上下文方面取得了重大突破，能够稳定地在生产环境中运行 100 万个令牌（Token），比目前任何其他大规模基础模型都要多。

看看数据的使用情况

有超过 150 万的开发者在使用谷歌的各种工具中的 Gemini 模型。使用它来调试代码、获得新的见解并打造下一代的 AI 应用。

今天，谷歌拥有 20 亿用户的产品都在使用 Gemini。

Gemini AI 加持下的全新的搜索功能演示

Google搜索正通过AI技术实现重大进步，不仅增强了对复杂查询的理解能力，还通过对话式互动提供更加个性化的帮助。这种智能搜索体验被称为生成式搜索体验（Search Generative Experience），它利用AI技术极大提升了搜索结果的相关性和质量，使用户能够以创新的方式，如通过照片进行搜索（如下面提到的 Ask Photo ），这不仅大幅增加了搜索使用量，还显著提升了用户满意度。

以下视频来源于

谷歌黑板报

关闭

观看更多

退出全屏

视频加载失败，请刷新页面再试

刷新

视频详情

此外，Google的智能搜索服务现在可以通过移动设备上的Android和iOS应用程序直接与用户互动，这得益于Gemini AI的强大功能。在最近的发布会上，

Google宣布了一项重要更新：将全新改版的AI Overviews体验推广到更多国家。

AI Overviews是Google搜索体验的关键组成部分，它通过Gemini AI的支持，为用户提供了更深入、更丰富的搜索结果，进一步增强了搜索服务的个性化和实用性。

Gemini AI 在 Google Photos 中的应用

借助 Gemini AI 技术，Google Photos 现可简化用户搜索特定生活瞬间的过程。

这次的发布会上，谷歌首席执行官桑达尔・皮查伊演示了 Ask Photos 的功能。他询问 Google Photos ：“我的车牌号是多少来着？”此前，用户需要滚动浏览许多不同汽车的照片来寻找车牌号，但在 AskPhotos 的帮助下，Google Photos 能够根据位置、多年来在照片中出现的次数和其他数据，迅速找出对应的车辆，并以文字回复的形式提供实际车牌号，同时还提供了一张验证车牌号的图片。

更有生活化的实用案例是，皮查伊提问：“Lucia 是什么时候学会游泳的？”或者“向我展示 Lucia 的游泳技能是怎么进步的”。

这神奇的搜索方式的工作原理是，Gemini 会识别不同的上下文，从在游泳池中扑腾，到在海洋中浮潜，再到她游泳证书上的文字和日期。Photos 会将所有这些信息整合在一起形成一个总结。

今年夏天将推出全新的 Ask Photos，并将持续增加更多功能。

Gemini模型的多模态能力

在Google I/O 2024上，谷歌重点介绍了其名为Gemini的人工智能模型。从一开始谷歌就将 Gemini 打造成多模态，它是一个内置了所有模态的模型。

那什么是多模态？多模态指的是 AI 模型能够处理和理解不同类型的数据，如文本、图像、音频和视频。这意味着 Gemini 模型能够理解不同类型的输入，并找到它们之间的联系，从而扩展了可以提出的问题以及将得到的答案。

我们来举个例子方便理解，一个多模态的AI助手不仅可以回答你的问题，还可以通过图像识别帮你找到物品，或者通过语音识别与你进行自然对话。

发布会上宣布，将向全球所有开发者推出改进版的 Gemini 1.5 Pro 和具有 100 万令牌上下文能力的 Gemini 1.5 Pro，也可供 Gemini Advanced 的消费者直接使用（35 种语言）；另外谷歌还将上下文窗口扩展到 200 万个令牌，以非公开预览版的方式提供给开发者们。

为什么超长的上下文如此重要和多模态模型的关系又是什么样的？

先解释下名词 Token（令牌），令牌是 AI 用来表示文字、图片、视频片段等信息的单位。不需要理解 100 万令牌的量级，但是你可以想象就像它拥有一个巨大的记忆库，可以同时记住和处理大量的信息。

100 万令牌使得 Gemini 1.5 Pro 能够理解非常长的文档，比如整本甚至更多的书籍，或者是更长时间的视频和音频记录。

想象一下，你有一个超级聪明的助手（多模态模型），它不仅能阅读书籍和文章（长文本处理），还能理解书中提到的图片、视频中的场景，甚至是人们讨论的音频（多模态理解）。

长文本处理能力对多模态支持至关重要，当你询问一个复杂主题的问题时，Gemini 1.5 Pro不仅能够搜索和分析文字资料，还能够识别和参考相关的图片、视频片段或音频内容，给你一个更全面、更深入的答案。

所以，Gemini 1.5 Pro 通过长文本处理能力，大大增强了对多模态信息的理解，使我们能够以全新的方式与信息互动，无论是通过阅读、观看还是聆听。

具体看看这些能力是如何应用到真实的生活场景的？01 文本输出：邮件搜索应用Gemini 1.5 Pro通过其先进的AI能力，正在使Gmail的电子邮件搜索和管理变得更加高效和智能。例如，家长可以使用 Gemini 来快速获取孩子学校相关邮件的摘要，包括识别和总结关键信息和待办事项。即使在旅途中，Gemini也能够分析长时间的会议录音，提取重要内容，并在需要时帮助用户起草回复邮件。

这些功能现在已经被集成到 Google Workspace Labs中，让日常生活和工作任务变得更加轻松。02 音频输出：文档内容总结在开发者大会上，还展示了 Gemini 1.5 Pro 的新功能，其中就包括 NotebookLM （人工智能驱动的笔记应用程序）的音频概述（Audio Overview）输出功能。它可以基于用户的原文件内容，生成个性化的音频对话或者摘要。这意味着用户可以听到关于文档内容的音频总结，而不是阅读文字，这样的功能尤其适用于需要听觉学习或在移动中无法阅读文字的用户。这项技术展示了多模态AI的潜力，即AI不仅能够处理和生成文本，还能够理解和生成音频，使得信息的获取和交互更加多样化和便捷。通过这种方式，AI可以更好地适应不同用户的需求和偏好，提供更加丰富的用户体验。现在 NotebookLM 已经脱离了测试阶段，面向美国用户全面开放。但遗憾的是，其他国家的用户还需等待一段时间~

AI 智能体 AI Agents发布会上，皮查伊介绍了谷歌 AI 智能体的新进展。什么是AI 智能体呢？发布会上皮查伊形象地说：“我认为它们是可以推理、规划和记忆的智能系统。它们能够提前多步”思考”，跨软件和系统工作，所有这些都是为了帮助你完成任务，而最重要的是要在你的监督之下。”会上举了好几个日常生活的场景：退鞋子的繁琐流程：找订单、填写退货表格、安排取件再比如，刚到芝加哥你：你要找附近的干洗店、还要在非常多的网站上更新你的新住址等等好~那么上面的一切由你的 AI 智能体 Gemini 为你代劳，你是不是会更轻松呢？

轻量级模型 Gemini 1.5 Flash 发布除了专业的Gemini 1.5 Pro外，谷歌这次大会还推出了 Gemini 系列模型中的最新成员 Gemini 1.5 Flash。它将于周二在 AI Studio 和 Vertex AI 平台上提供，帮助开发者以更经济高效的方式构建 AI 应用。Gemini 1.5 Flash 是针对大规模处理高容量、高频次任务进行优化的轻量级模型，具备快速响应的特点，并在总结摘要、聊天应用、图像和视频字幕生成以及从长文档和表格中提取数据等方面表现出色。它能够一次性分析 1500 页的文档或超过 30000 行的代码库，是通过 API 提供的速度最快的 Gemini模型。

像人类一样理解和响应的 Astra终于说到它了~印象格外深刻~发布会上，推出了一个名为 Project Astra 的新项目。这个项目是 Google 在人工智能领域的最新进展，被设计成一个多模态AI助手，可以在复杂的、动态的真实世界环境中像人类一样理解和响应。在演示视频中，Project Astra 能迅速识别出音响的发声部位、彩笔，并对屏幕上的代码进行一定程度上的解释

以下视频来源于

谷歌黑板报

关闭

观看更多

退出全屏

视频加载失败，请刷新页面再试

刷新

视频详情

第六代TPU Trillium 发布TPU（张量处理单元），是 AI 时代的基础设施，训练最先进的模型需要大量的计算能力，Gemini 是在第四代和第五代 TPU 上进行训练和服务的。TPU 是一种专门设计来提高 AI 模型训练和推理速度的硬件，而 Trillium 作为第六代产品，相比于前一代 TPU v5e ，它在性能上有显著提升，每个芯片的计算性能提高了 4.7 倍。简单来说，Trillium 就像是AI的超级大脑，可以快速处理大量数据，帮助AI应用更智能、响应更迅速。Trillium 的推出，意味着我们可以期待未来谷歌的 AI 应用将更加强大和高效。除了 TPU，发布会上还宣布了几款重要的产品，这些产品主要用于提升计算性能，尤其是针对人工智能（AI）和机器学习（ML）的应用，如：新型CPU-Axion处理器这是谷歌在4月宣布的首款基于Arm架构定制的中央处理器（CPU），它能够提供业界领先的性能和能效。CPU是计算机的大脑，负责执行各种计算任务和指令。新型GPU：Nvidia Blackwell谷歌将成为首批提供这款由Nvidia制造的尖端图形处理器（GPU）的云服务提供商。GPU对于处理图像和视频等内容非常重要，也常用于AI和科学计算。预计25年初会上市。

AI 超级计算机发布会上还提到了AI超级计算机，是一项突破性的计算架构创新。它融合了经过特别优化的硬件、开放源代码软件以及多样化的消费模式，形成了一个综合性的系统。这款超级计算机采用了尖端的液体冷却技术，不仅大幅提升了能效比，而且减少了能源消耗，实现了环保目标。它的计算效率显著，是传统硬件和芯片解决方案的两倍多，为全球企业和开发者提供了一个强大的平台，以应对日益复杂的技术挑战。相关信息的拓展阅读：VeoVeo是谷歌推出的视频生成模型，它能够生成各种风格的高质量1080p分辨率视频，时长可以超过一分钟。Veo模型在理解视频内容、渲染高清图像、模拟物理原理等方面都有所突破，能够准确、细致地表达用户的创作意图17。Imagen 3Imagen 3是谷歌的新一代图像生成模型，它在生成细节、光照、干扰等方面进行了优化升级，并且理解prompt的能力显著增强。Imagen 3能够根据用户的文本提示生成高质量图像，并且针对图像生成中的文字模糊问题进行了改进，使生成图像中文字清晰并风格化18。Gemma 2.0Gemma 2.0是谷歌发布的开源大模型，它采用全新架构，旨在实现突破性的性能和效率。Gemma 2.0是谷歌为负责任的AI创新打造的下一代模型，参数为27B，代表了谷歌在AI领域的进一步开放和合作DeepMindDeepMind是一家英国的人工智能公司，由人工智能程序师兼神经科学家Demis Hassabis等人于2010年联合创立。DeepMind在AI领域的研究和发展被广泛讨论。特别是，DeepMind的AlphaFold人工智能系统在蛋白质结构预测竞赛中取得了前所未有的高水平，这将为解决人类50年来的巨大挑战铺平道路。LearnLM这是一系列为学习“微调”的新型生成式 AI 模型。这是 Google 的 DeepMind AI 研究部门和 Google Research 之间的合作。Google 表示，LearnLM 模型旨在“会话式”地辅导学生学习各种科目。LearnLM 可以帮助教师发现新的想法、内容和活动，或者找到适合特定学生群体需求的材料。发布会的内容比较多，这里抽了一些小编个人觉得感兴趣的内容，完整版的信息可以去官方看看~发布会直达链接：https://io.google/2024/explore/a6eb8619-5c2e-4671-84cb-b938c27103be/intl/zh/最近我们花了40天的时间内部运营了一个有关如何用 AI 工具提升效率和赚钱的星球（目前完全免费），目前是试运营状态，欢迎过来玩啊！

为了确保能获取到真正有价值的AI信息，这里还给大家争取到一个重磅福利为粉丝们争取到了 1 元体验卡（仅30份），它能让你仅需1元就能体验3天有4万人的 AI付费社群用微信扫一扫下面的二维码，花1元购买「AI 破局俱乐部」的 3 天体验卡，和4万+的AI探索者一起学习用AI个人提效和副业赚钱，几百的真实赚钱案例，和价值上万的系统教程都在这里！对了！昨天社群还开始了新的活动「新手训练营」，这个是免费的活动哦~具体信息你可以问问客服~如果客服没有及时回应，请耐心等待（据说近期新生过多，人手不足啦~）

你还可以扫码添加我的个人vx，领取自媒体人必备的剪映绿色破解版~

如果这期内容你觉得不错，随手点个赞和“在看”吧，创作不易~感谢喜欢！

分享到：

本文 zblog模板原创，转载保留链接！网址：http://fsxxzx.com/post/2530.html

可以去百度分享获取分享代码输入这里。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。