​谷歌研究:回顾2019年,展望2020年及以后(85k字)第6-10节(共18节)

hzqadmin 阅读:25 2024-07-26 21:27:58 评论:0

6. 健康 (Health)2018年末,我们将谷歌研究的健康团队,深心健康(Deepmind Health)和谷歌硬件部门(专注健康相关应用)团队合并在一起,组成谷歌健康(Google Health)(https://health.google/)2019年,我们继续在这一领域推进研究,与各种医疗合作伙伴合作发表研究论文(https://research.google/pubs/?area=health-bioscience)并构建工具(https://www.blog.google/technology/health/google-health-provider-tools-launch/)。以下是2019年的一些亮点:·我们表明,乳房X线照相术的深度学习模型(https://blog.google/technology/health/improving-breast-cancer-screening)可以帮助医生发现乳腺癌,这种疾病影响着美国八分之一女性的一生,其准确性要比专家高,减少了假阳性和假阴性。该模型使用英国医院的去识别数据数据(de-identified data)训练,在评估来自美国完全不同医疗系统中的患者时,准确性上获得了相似结果。17:通过机器学习正确识别的难以检测的癌症病例的示例·我们表明,皮肤疾病鉴别诊断的深度学习模型(http://ai.googleblog.com/2019/09/using-deep-learning-to-inform.html)可以提供比初级保健医师更准确的结果,并且与皮肤科医生相当甚至更好。·现已是谷歌研究一部分的深心健康(Deepmind Health)的同事与美国退伍军人事务部(VA)的专家一起工作表明,机器学习模型可以预测急性肾损伤(AKI)(https://deepmind.com/blog/article/predicting-patient-deterioration)的发作,避免患者受伤害的主要原因之一,直到伤害发生前两天。未来,这将使医生提前48小时开始治疗这种严重疾病。·我们与多个合作伙伴组织将该深度学习应用扩展到电子健康记录(http://ai.googleblog.com/2019/01/expanding-application-of-deep-learning.html)。您可以在我们的2018年博客文章(https://ai.googleblog.com/2018/05/deep-learning-for-electronic-health.html)中阅读有关此工作的更多信息。

视频4:谷歌健康工具帮助医疗保健在预测肺癌方面迈出了坚实的一步Google Health-Tools to helphealthcare promising step forward for predicting lung cancer (https://youtu.be/P3SYqcPXqNk)·我们表明了预测肺癌的可喜一步(https://www.blog.google/technology/health/lung-cancer-prediction/),一种检查单个CT扫描研究的深度学习模型,在肺癌早期发现方面与受过训练的放射线医师相比具有同等或更好水平。早期发现肺癌可以大大提高生存率。

·我们与Verily(真的,Alphabet旗下生命科学部门)(https://verily.com/)和我们在印度泰国的医疗合作伙伴合作,继续扩大和评估我们用于检测和预防眼疾的机器学习工具的部署(https://www.blog.google/technology/health/new-milestones-helping-prevent-eye-disease-verily/)·我们发表了一篇癌症诊断的增强现实显微镜(https://research.google/pubs/pub47769/)研究论文,病理学家可以在通过显微镜检查组织的同时,获得有关载玻片的哪些部分最有趣的实时反馈。您还可以在我们2018年博客文章(https://ai.googleblog.com/2018/04/an-augmented-reality-microscope.html)中阅读更多有关它的信息。·我们为病理学家构建了以人为中心的相似图像搜索工具(http://ai.googleblog.com/2019/07/building-smily-human-centric-similar.html),通过允许检查相似病例来帮助他们做出更有效的诊断。(暨谷歌的SMILY工具,像您一样的类似医学图像,Similar MedicalImages Like Yours的首字母缩写。)

视频5斯迈利(SMILY):病理学家的类似图像搜索SMILY: Similar imagesearch for pathologists (https://youtu.be/kw_X7x3G6FY)7. 量子计算 (Quantum Computing)2019年,我们的量子计算团队首次展示了一种计算任务(http://ai.googleblog.com/2019/10/quantum-supremacy-using-programmable.html)(原为谷歌量子计算团队首次实现量子霸权),在量子处理器上的执行速度要比世界上最快的传统计算机指数级更快,相比10,000年只有200(所需计算时间)

19:左:艺术家对安装在低温恒温器中的梧桐处理器(Sycamore processor)的再现。[完整版本(https://1.bp.blogspot.com/-CmGPCx78J7U/XbC8L7QzW_I/AAAAAAAAE14/fWozhMAgTB0W95MP-rbirIF_Pw08Tb7GgCLcBGAsYHQ/s1600/Google_Quantum_Nature_cover_art_small.png);斯特恩斯森林(Forest Stearns),居住地的谷歌人工智能(GoogleAI)量子艺术家] 右:梧桐处理器(Sycamore processor)的照片。[完整版本(https://1.bp.blogspot.com/-4pbQ6nBDyxY/XbC8MHKgTCI/AAAAAAAAE10/wu0JGYKYZ-wyCUIQRTvYt2PGzCPKmHsrACLcBGAsYHQ/s1600/Google_Quantum_Nature_cover_art_Sycamore_device_small.png);埃里克·卢塞罗(ErikLucero),量子科学家,领导生产量子硬件]使用量子计算机可能会在诸如材料科学、量子化学[早期示例(https://research.google/pubs/pub48383/)]和大规模优化等领域中产生重要问题,但是为了实现这一点,我们将不得不继续推动这一领域前进。现在,我们将重点放在实现量子误差校正上,以便我们能够运行更长时间的计算。我们还致力于使量子算法更易于表达(https://ai.googleblog.com/2018/07/announcing-cirq-open-source-framework.html)、硬件更易于控制(https://ai.googleblog.com/2019/02/on-path-to-cryogenic-control-of-quantum.html),并且已经找到了使用经典机器学习技术(如深度强化学习)(https://ai.googleblog.com/2019/10/improving-quantum-computation-with.html)来构建高可靠量子处理器的方法。今年的成就令人鼓舞,是走向使实用量子计算成为更广泛问题的现实的早期步骤。您可以在《我们的量子计算里程碑意味着什么》(https://www.blog.google/perspectives/sundar-pichai/what-our-quantum-computing-milestone-means/)阅读桑达尔的想法(Sundar’s thoughts)8. 一般算法和理论 (General Algorithms and Theory)算法和理论(https://research.google/pubs/?area=algorithms-and-theory)的一般领域,我们继续了从算法基础到应用程序的研究,并在图形挖掘(https://research.google/teams/algorithms-optimization/graph-mining/)市场算法(https://ai.google/research/teams/algorithms-optimization/market-algorithms/)方面也做过工作。一篇博客文章总结了我们在图学习算法方面的一些工作(https://ai.googleblog.com/2019/06/innovations-in-graph-representation.html),提供了有关该工作的更多详细信息。我们在VLDB 19(大型数据库Very Large Data Bases)(https://vldb.org/2019/)上发表了一篇标题为《数据中心应用程序的缓存感知负载均衡》(http://www.vldb.org/pvldb/vol12/p709-archer.pdf)的论文,尽管另一标题可能是《通过这个妙招将数据中心的服务容量提高40%!》。该论文介绍我们如何使用图的均衡分区(https://www.mdpi.com/1999-4893/12/8/162)来专门化网络(Web)搜索后端服务系统中的缓存,从而将闪存驱动器的查询吞吐量提高48%,并有助于使整个搜索后端的吞吐量提高40%。

20:跨网络(Web)搜索服务叶节点的闪存输入输出(Flash IO)请求(由高速缓存未命中导致)的热图。这三个驼峰分别表示随机叶节点选择、负载均衡和缓存感知的负载平衡(从左到右)。各线条表示第50909599.9百分位。VLDB’19论文《数据中心应用程序的缓存感知负载均衡》(http://www.vldb.org/pvldb/vol12/p709-archer.pdf)在一篇ICLR2019(国际学习表征会议the International Conference on Learning Representations)(https://iclr.cc/Conferences/2019)标题为《新狗学旧技巧:强化学习(RL)找到经典优化算法》(https://openreview.net/pdf?id=rkluJ2R9KQ)的论文中,我们发现了一种算法与机器学习之间的新联系,展示了强化学习如何为几种经典的在线优化组合问题,例如在线匹配和分配,有效地找到最佳的(最坏情况下、统一的)算法。我们在可伸缩算法的工作涉及大数据集的并行、在线和分布式算法。在最近的FOCS’19(计算机科学基础Foundations of Computer Science)(https://arxiv.org/abs/1910.05385)论文中,我们为连接组件提供了近乎最佳的大规模并行计算算法。我们的另一组论文改进了用于匹配[理论(https://arxiv.org/abs/1711.03076)实践(https://icml.cc/Conferences/2019/ScheduleMultitrack?event=4653)]密度聚类(http://proceedings.mlr.press/v97/ghaffari19a.html)并行算法。第三项工作涉及在黑盒模型中子模函数的自适应优化,该模型在特征选择词汇压缩(https://icml.cc/Conferences/2019/Schedule?showEvent=4276)中具有多种应用。在一篇SODA’19(离散算法讨论会Symposium on Discrete Algorithms)(https://arxiv.org/abs/1807.07889)论文中,我们提出了一种在三个方面几乎最优的亚模最大化算法:逼近因子、舍入复杂度和查询复杂度。此外,在另一篇FOCS 2019论文(计算机科学基础Foundations of Computer Science)(https://drive.google.com/file/d/1oT_f4Y-NZ6qNvveNF80-8lKeP-HDn5FO/view)中,我们为PCA(主成分分析)列子集选择提供了第一个在线乘法近似算法其他工作中,我们引入半在线计算模型,该模型假定未知的未来具有可预测的部分和可对抗的部分。对于经典组合问题,例如二分匹配(https://en.wikipedia.org/wiki/Maximum_cardinality_matching)[ITCS’19(信息技术与计算服务Information Technology and Computing Services)(https://drops.dagstuhl.de/opus/volltexte/2018/10143/pdf/LIPIcs-ITCS-2019-50.pdf)]缓存(https://en.wikipedia.org/wiki/Page_replacement_algorithm)[SODA’20(离散算法讨论会Symposium on Discrete Algorithms)(https://epubs.siam.org/doi/abs/10.1137/1.9781611975994.113)],我们获得了半在线算法,以确保在最佳的在线和离线算法之间平滑地插值。我们在市场算法(https://ai.google/research/teams/algorithms-optimization/market-algorithms/)领域最近的研究,包括对学习与市场之间相互作用,以及对实验设计创新(https://papers.nips.cc/paper/9486-variance-reduction-in-bipartite-experiments-through-correlation-clustering)的新理解。例如,这份NeurIPS’19(神经信息处理系统Neural InformationProcessing Systems)口头论文(http://papers.nips.cc/paper/8436-strategizing-against-no-regret-learners)显示了战略型代理在一般的重复2人游戏中,与学习型代理竞争时,所具有的惊人竞争优势。最近对广告自动化的关注,已经引起了对自动竞价广告商响应行为理解的兴趣增长。在一对WINE 2019(无线网络Wireless Networks)(https://link.springer.com/chapter/10.1007/978-3-030-35389-6_2)论文中,我们研究了最佳策略以代表广告商最大限度地提高转化率,并进一步理解广告商对拍卖中任何变化的响应行为。最后,我们在保留了干扰的情况下研究了实验设计,其中一组成交可能会影响另一组的结果。在一篇KDD19论文(知识发现和数据挖掘Knowledge Discovery and Data Mining)(https://dl.acm.org/doi/10.1145/3292500.3330778)和一篇NeurIPS19论文(神经信息处理系统Neural InformationProcessing Systems)(https://papers.nips.cc/paper/9486-variance-reduction-in-bipartite-experiments-through-correlation-clustering)论文中,我们展示了如何定义单位或单位簇以限制干扰,同时保持实验能力(https://en.wikipedia.org/wiki/Power_(statistics))

21KDD19论文《通过地理聚类进行随机化实验设计》(https://dl.acm.org/doi/10.1145/3292500.3330778)中的聚类算法适用于来自美国的用户查询。该算法自动识别都会区,例如,正确地预测湾区包括旧金山、伯克利和帕洛阿尔托,但不包括萨克拉曼多。9. 机器学习算法 (Machine Learning Algorithms)2019年,我们在机器学习算法和方法的许多不同领域进行了研究。一个主要重点是理解神经网络中训练动力学的性质。在突显这篇论文(https://arxiv.org/abs/1811.03600)的博客文章《测量神经网络的数据并行训练极限》(http://ai.googleblog.com/2019/03/measuring-limits-of-data-parallel.html)中,谷歌研究人员提供了一组严谨的实验结果,表明了数据并行性总量(通过增加批量规模)的缩放,使该模型收敛(使用数据并行性)更快更有效。

22:对于我们测试过的所有工作负载,我们观察到批量大小与训练速度之间存在三种明晰的方案:小批量大小的完美扩展(沿虚线),最终看到随着批量大小的增长而收益递减(与虚线不同),以及在最大批量大小(趋势平稳)时的最大数据并行性。在不同工作负载间,方案间的过渡点差异很大。模型并行性,与分散在多个计算设备的一种模型的数据并行性相比,能做为缩放模型的有效方法。谷歌管道(Gpipe)(https://ai.googleblog.com/2019/03/introducing-gpipe-open-source-library.html)是一个库,通过类似流水线CPU处理器所使用的方法,可以使模型并行性更加有效:当整个模型的一部分正在处理某些数据时,其他部分可以处理其计算不同数据的部分。这种流水线方法的结果,可以组合在一起,以模拟更大的有效批量大小。当机器学习模型能获取原始输入数据并学习解耦(disentangled)”高级表征时,它们是有效的,这些表征通过我们希望模型能够区分的属性(例如猫与卡车与牛羚,癌症组织与正常组织,等)来区分不同种类的示例。推进机器学习算法的重点大多是鼓励学习更好的表征,更好地推广到新的示例、问题或领域。今年,我们在许多不同背景下研究了这个问题:·《解耦表征的无监督学习之评估》(http://ai.googleblog.com/2019/04/evaluating-unsupervised-learning-of.html)中,我们检查了哪些属性会影响从无监督数据中学习的那些表征,以便更好地理解什么是好的表征和有效学习的基础。·《预测深度神经网络中的泛化差距》(http://ai.googleblog.com/2019/07/predicting-generalization-gap-in-deep.html)中,我们表明可以使用边际分布(裕度分布)的统计量来预测其泛化差距(一种模型性能,来自其训练分布数据与不同分布数据之间的差距),有助于我们更好地理解哪些模型最有效地泛化了。我们还做了一些有关机器学习模型中分布外检测的改进(http://ai.googleblog.com/2019/12/improving-out-of-distribution-detection.html)的研究,以更好地理解模型何时开始遇到从未见过的各种数据。我们还在强化学习背景下研究了非策略分类(http://ai.googleblog.com/2019/06/off-policy-classification-new.html),以更好地理解哪些模型可能会泛化为最佳模型。

·《学习来自稀疏和未指定奖励的泛化》(http://ai.googleblog.com/2019/02/learning-to-generalize-from-sparse-and.html)中,我们还研究了为强化学习指定奖励函数的方法,使学习系统可以更直接地从真实目标中学习,并且减少受到更长的、不理想的那种偶然达成预期目标的动作序列而分心。

24:在这项跟随指令任务里,动作轨迹a1a2a3达成目标,但序列a2a3没有遵循指令。这说明了奖励不足的情形。10. 自动化机器学习 (AutoML)今年,我们继续了自动化机器学习(AutoML)的工作,这种方法是使算法学习如何学习,可以使机器学习的许多方面实现自动化,并且在某些类型的机器学习元决策上,与最佳的人类机器学习专家相比,通常可以取得更好的结果。尤其是:·《高效网(EfficientNet):通过自动化机器学习(AutoML)和模型缩放提高准确性和效率》(http://ai.googleblog.com/2019/05/efficientnet-improving-accuracy-and.html)中,我们展示了如何使用神经架构搜索技术在计算机视觉问题上获得明显更好的结果,包括图像网(ImageNet)上一个新的最好水平84.4%的top-1准确性结果,同时参数比以前最佳模型少8倍。25:模型大小与精度比较。EfficientNet-B0AutoML MNAS(https://ai.googleblog.com/2018/08/mnasnet-towards-automating-design-of.html)开发的基准网络,而Efficient-B1B7是通过扩大基准网络获得的。特别是,我们的EfficientNet-B7达到了新的最好水平的84.4%的top-197.1%的top-5精度,但(参数)比现有最佳CNN8.4倍。·《高效网-边缘张量处理单元(EfficientNet-EdgeTPU):使用自动化机器学习(AutoML)创建加速器优化型神经网络》(http://ai.googleblog.com/2019/08/efficientnet-edgetpu-creating.html)中,我们展示了神经架构搜索方法如何找到针对特定硬件加速器量身定制的高效模型,从而在移动设备上运行高精度、低计算量的模型。·《视频架构搜索》(http://ai.googleblog.com/2019/10/video-architecture-search.html)中,我们描述了如何将AutoML工作扩展到视频模型的领域,如何找到可实现最好水平的结果的架构,以及与手工模型的性能相匹配而又减少50倍计算的轻量级架构。

26:微型视频网[TinyVideoNet(TVN)]架构演进到最大限度地提高识别性能,同时将计算时间保持在所需限制内。例如,TVN-1(顶部)在中央处理器(CPU)上运行37毫秒,在图像处理器(GPU)上运行10毫秒。TVN-2(底部)CPU上运行65毫秒,在GPU上运行13毫秒。·我们开发了用于表格数据的AutoML技术,解锁了一个重要的领域,这个领域中,许多公司和组织在关系数据库中拥有有趣的数据,并经常希望基于此数据开发机器学习模型。我们合作发布了这项技术,作为一个新的谷歌云(Google Cloud)AutoML Tables(https://cloud.google.com/automl-tables/)产品,还讨论了该系统在卡格勒日(KaggleDays)针对表格数据的端到端AutoML解决方案(http://ai.googleblog.com/2019/05/an-end-to-end-automl-solution-for.html)的新卡格勒(Kaggle)竞赛中的表现(剧透:在74个专家数据科学家团队里AutoML Tables排名第二)·《探索权重不可知神经网络》(http://ai.googleblog.com/2019/08/exploring-weight-agnostic-neural.html)中,我们展示了如何无需任何训练步骤即可找到有趣的神经网络架构、更新评估模型的权重。这可以使架构搜索的计算效率更高。

27-28:一个权重无关的神经网络,可以在各种不同权重参数下执行卡特波尔(Cartpole)摆动任务,并且还用了微调的权重参数。·《变换器架构(Transformer Architectures)的自动化机器学习(AutoML)应用》(http://ai.googleblog.com/2019/06/applying-automl-to-transformer.html)探索了为自然语言处理任务寻找架构,以显著提升香草变换器模型(vanilla Transformer models)的性能,同时大大降低计算成本。

29:在WMT’14En-De上不同尺寸的进化变换器(ET)和原始变换器间的比较。性能的最大提高发生在较小的尺寸上,而ET在较大尺寸上也显示出强度,最大变换器表现出更少参数,性能却降低37.6(要比较的模型以绿色圈出)。有关确切数字请参见我们的论文(https://arxiv.org/abs/1901.11117)中表3·《规格增强(SpecAugment):一种用于自动语音识别的新数据增强方法》(http://ai.googleblog.com/2019/04/specaugment-new-data-augmentation.html)中,我们展示了自动学习数据增强方法的方式,可以扩展到语音识别模型,与现有的人类机器学习(ML)专家驱动的数据增强方法相比,所学习的增强方法以更少的数据实现了更高的准确性。·我们推出了我们的第一个语音应用程序,用于使用AutoML的关键字识别和口语识别(https://www.isca-speech.org/archive/Interspeech_2019/abstracts/1916.html)。在我们的实验中,我们发现了,比在存在一段时间的此设置中的人工设计模型,更好的模型(效率更高、性能更高)—To Be Cont.—免责说明:公开期刊媒体素材注明出处可溯源。本公众号不持有任何倾向性,亦不表示认可其观点或其所述DataSimp230谷歌研究:回顾2019年,展望2020年及以后DS20200111SatQinDragon.docx简介:谷歌研究:回顾2019年,展望2020年及以后。作者:杰夫·迪恩(Jeff Dean)下载:本文85k445视频55PDF图文,赞赏支持社区后,公号对话框发送谷歌研究2019获取。版权:科普文章仅供学习,素材©作者保留相应版权,商业非法目的勿用。有事留言或邮询QinDragon2010@qq.com转载:请保留作者、出处、时间等信息,如公号©数据简化DataSimp,作者:杰夫·迪恩(Jeff Dean),译者:秦陇纪,时间:20200111Sat©数据简化SataSmip社区NC非商业授权等,欢迎分享、赞赏、支持数据简化社区~~社区数据简化DataSimp科学Sciences知识简化新媒体聚集专业领域一线研究员研究技术时也传播知识、专业视角解释和普及科学现象和原理,展现自然社会生活之科学面。秦陇纪PhDS01发起,期待您参与各领域;科学技术论文投稿邮箱DataSimp@126.com只会敲门呐喊,不能推动领域;只有空想设计,无法实现生产,就虚度一生。工程技术能力至关重要,秦陇纪与君共勉之。欢迎科学、工程、技术、教育、传媒等业界专家投稿、加入数据简化社区!欢迎大家分享、赞赏、支持科普~~数据简化DataSimp”公众科普技术分享如需下载PDF请赞赏支持

分享到:

本文 zblog模板 原创,转载保留链接!网址:http://fsxxzx.com/post/1134.html

可以去百度分享获取分享代码输入这里。
声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

关注我们

扫一扫关注我们,了解最新精彩内容

标签列表