2024年谷歌I/O 发布会 Gemini AI成最大亮点,还有最新AI技术和Pixel 8a手机重磅发布!附开发者大会链接
前言
昨天的谷歌开发者大会(Google I/O 2024)可是信息量爆炸!
这两天真是科技界的盛宴,昨天是 OpenAI 发布会,今天是谷歌的开发者盛会,24年近2小时的谷歌开发者大会说了什么?小编整理了一下会议重点,我们一起看看有什么值得关注的信息,文末附了观看网址~
大会开始时间?
Google的年度开发者盛会,I/O 2024,于美国太平洋时间5月14日上午10点在加州山景城的Shoreline Amphitheatre盛大开幕。Alphabet CEO桑达尔·皮查伊(Sundar Pichai)的主题演讲开启了今年的大会,聚焦人工智能的最新进展。
为什么每一年的 Google I/O 都会有这么多人关注?Google I/O是谷歌每年举办的一次重要活动,专门向全球开发者和科技爱好者展示最新的技术和产品。就像科技界的春晚,每年的I/O都会引发全球的关注和讨论。这次大会上,谷歌展示了从智能手机到人工智能的一系列重大更新。
大会上有哪些亮眼的产品发布?
推出LearnLM AI模型助力学习;YouTube新增AI测验;Gemma 2模型将升级至270亿参数;Google Play引入新发现功能;Android将内置通话诈骗检测;Google Photos将通过AI增强搜索;Gmail集成Gemini AI技术;Gemini Live提供深度语音聊天;Chrome内置Gemini Nano;Android集成Gemini AI;Google Maps引入Gemini模型;TPU性能提升;搜索功能增强AI;Imagen 3模型升级;Project IDX开发环境公测;Veo AI模型生成视频;Circle to Search功能增强;
挑几个重磅产品一起了解一下吧~
Gemini AI谷歌在官网上宣布已经全面进入 Gemini 时代~ 本次大会也是重头戏,让我先来看看 Gemini AI 的进展~
官网上提到
十多年来,谷歌一直在 AI 领域进行投入,并在各个层面进行创新如研究、产品、基础设施,但尽管如此,他们仍处于 AI 平台转型的初期。他们看到了为创作者、开发者、初创公司以及每一个人所带来的巨大机遇。帮助推动这些机遇正是 Gemini 时代的意义所在!
回顾一下 Gemini 的发展
一年前,也是在 I/O 大会上,首次分享了 Gemini 的计划:一个从一开始就构建为原生多模态的前沿模型,能够跨文本、图像、视频、代码等多种数据类型进行推理。它标志着将任意输入转换成任意输出的重要一步,新一代的“I/O”。
而 Gemini 模型,是谷歌迄今为止功能最强大的模型!在那时的2月后,又推出了 Gemini 1.5 Pro,它在处理长上下文方面取得了重大突破,能够稳定地在生产环境中运行 100 万个令牌(Token),比目前任何其他大规模基础模型都要多。
看看数据的使用情况
有超过 150 万的开发者在使用谷歌的各种工具中的 Gemini 模型。使用它来调试代码、获得新的见解并打造下一代的 AI 应用。
今天,谷歌拥有 20 亿用户的产品都在使用 Gemini。
Gemini AI 加持下的全新的搜索功能演示
Google搜索正通过AI技术实现重大进步,不仅增强了对复杂查询的理解能力,还通过对话式互动提供更加个性化的帮助。这种智能搜索体验被称为生成式搜索体验(Search Generative Experience),它利用AI技术极大提升了搜索结果的相关性和质量,使用户能够以创新的方式,如通过照片进行搜索(如下面提到的 Ask Photo ),这不仅大幅增加了搜索使用量,还显著提升了用户满意度。
此外,Google的智能搜索服务现在可以通过移动设备上的Android和iOS应用程序直接与用户互动,这得益于Gemini AI的强大功能。在最近的发布会上,
Google宣布了一项重要更新:将全新改版的AI Overviews体验推广到更多国家。
AI Overviews是Google搜索体验的关键组成部分,它通过Gemini AI的支持,为用户提供了更深入、更丰富的搜索结果,进一步增强了搜索服务的个性化和实用性。
Gemini AI 在 Google Photos 中的应用
借助 Gemini AI 技术,Google Photos 现可简化用户搜索特定生活瞬间的过程。
这次的发布会上,谷歌首席执行官桑达尔・皮查伊演示了 Ask Photos 的功能。他询问 Google Photos :“我的车牌号是多少来着?”此前,用户需要滚动浏览许多不同汽车的照片来寻找车牌号,但在 AskPhotos 的帮助下,Google Photos 能够根据位置、多年来在照片中出现的次数和其他数据,迅速找出对应的车辆,并以文字回复的形式提供实际车牌号,同时还提供了一张验证车牌号的图片。
更有生活化的实用案例是,皮查伊提问:“Lucia 是什么时候学会游泳的?”或者“向我展示 Lucia 的游泳技能是怎么进步的”。
这神奇的搜索方式的工作原理是,Gemini 会识别不同的上下文,从在游泳池中扑腾,到在海洋中浮潜,再到她游泳证书上的文字和日期。Photos 会将所有这些信息整合在一起形成一个总结。
今年夏天将推出全新的 Ask Photos,并将持续增加更多功能。
Gemini模型的多模态能力
在Google I/O 2024上,谷歌重点介绍了其名为Gemini的人工智能模型。从一开始谷歌就将 Gemini 打造成多模态,它是一个内置了所有模态的模型。
那什么是多模态?多模态指的是 AI 模型能够处理和理解不同类型的数据,如文本、图像、音频和视频。这意味着 Gemini 模型能够理解不同类型的输入,并找到它们之间的联系,从而扩展了可以提出的问题以及将得到的答案。
我们来举个例子方便理解,一个多模态的AI助手不仅可以回答你的问题,还可以通过图像识别帮你找到物品,或者通过语音识别与你进行自然对话。
发布会上宣布,将向全球所有开发者推出改进版的 Gemini 1.5 Pro 和具有 100 万令牌上下文能力的 Gemini 1.5 Pro,也可供 Gemini Advanced 的消费者直接使用(35 种语言);另外谷歌还将上下文窗口扩展到 200 万个令牌,以非公开预览版的方式提供给开发者们。
为什么超长的上下文如此重要和多模态模型的关系又是什么样的?
先解释下名词 Token(令牌),令牌是 AI 用来表示文字、图片、视频片段等信息的单位。不需要理解 100 万令牌的量级,但是你可以想象就像它拥有一个巨大的记忆库,可以同时记住和处理大量的信息。
100 万令牌使得 Gemini 1.5 Pro 能够理解非常长的文档,比如整本甚至更多的书籍,或者是更长时间的视频和音频记录。
想象一下,你有一个超级聪明的助手(多模态模型),它不仅能阅读书籍和文章(长文本处理),还能理解书中提到的图片、视频中的场景,甚至是人们讨论的音频(多模态理解)。
长文本处理能力对多模态支持至关重要,当你询问一个复杂主题的问题时,Gemini 1.5 Pro不仅能够搜索和分析文字资料,还能够识别和参考相关的图片、视频片段或音频内容,给你一个更全面、更深入的答案。
所以,Gemini 1.5 Pro 通过长文本处理能力,大大增强了对多模态信息的理解,使我们能够以全新的方式与信息互动,无论是通过阅读、观看还是聆听。
具体看看这些能力是如何应用到真实的生活场景的?01 文本输出:邮件搜索应用Gemini 1.5 Pro通过其先进的AI能力,正在使Gmail的电子邮件搜索和管理变得更加高效和智能。例如,家长可以使用 Gemini 来快速获取孩子学校相关邮件的摘要,包括识别和总结关键信息和待办事项。即使在旅途中,Gemini也能够分析长时间的会议录音,提取重要内容,并在需要时帮助用户起草回复邮件。这些功能现在已经被集成到 Google Workspace Labs中,让日常生活和工作任务变得更加轻松。02 音频输出:文档内容总结在开发者大会上,还展示了 Gemini 1.5 Pro 的新功能,其中就包括 NotebookLM (人工智能驱动的笔记应用程序)的音频概述(Audio Overview)输出功能。它可以基于用户的原文件内容,生成个性化的音频对话或者摘要。这意味着用户可以听到关于文档内容的音频总结,而不是阅读文字,这样的功能尤其适用于需要听觉学习或在移动中无法阅读文字的用户。这项技术展示了多模态AI的潜力,即AI不仅能够处理和生成文本,还能够理解和生成音频,使得信息的获取和交互更加多样化和便捷。通过这种方式,AI可以更好地适应不同用户的需求和偏好,提供更加丰富的用户体验。现在 NotebookLM 已经脱离了测试阶段,面向美国用户全面开放。但遗憾的是,其他国家的用户还需等待一段时间~AI 智能体 AI Agents发布会上,皮查伊介绍了谷歌 AI 智能体的新进展。什么是AI 智能体呢?发布会上皮查伊形象地说:“我认为它们是可以推理、规划和记忆的智能系统。它们能够提前多步”思考”,跨软件和系统工作,所有这些都是为了帮助你完成任务,而最重要的是要在你的监督之下。”会上举了好几个日常生活的场景:退鞋子的繁琐流程:找订单、填写退货表格、安排取件再比如,刚到芝加哥你:你要找附近的干洗店、还要在非常多的网站上更新你的新住址等等好~那么上面的一切由你的 AI 智能体 Gemini 为你代劳,你是不是会更轻松呢?轻量级模型 Gemini 1.5 Flash 发布除了专业的Gemini 1.5 Pro外,谷歌这次大会还推出了 Gemini 系列模型中的最新成员 Gemini 1.5 Flash。它将于周二在 AI Studio 和 Vertex AI 平台上提供,帮助开发者以更经济高效的方式构建 AI 应用。Gemini 1.5 Flash 是针对大规模处理高容量、高频次任务进行优化的轻量级模型,具备快速响应的特点,并在总结摘要、聊天应用、图像和视频字幕生成以及从长文档和表格中提取数据等方面表现出色。它能够一次性分析 1500 页的文档或超过 30000 行的代码库,是通过 API 提供的速度最快的 Gemini模型。像人类一样理解和响应的 Astra终于说到它了~印象格外深刻~发布会上,推出了一个名为 Project Astra 的新项目。这个项目是 Google 在人工智能领域的最新进展,被设计成一个多模态AI助手,可以在复杂的、动态的真实世界环境中像人类一样理解和响应。在演示视频中,Project Astra 能迅速识别出音响的发声部位、彩笔,并对屏幕上的代码进行一定程度上的解释本文 zblog模板 原创,转载保留链接!网址:http://fsxxzx.com/post/2530.html
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。