谷歌算法揭秘:根据泄露的文件,搜索引擎是如何工作的

hzqadmin 阅读:63 2024-08-25 20:32:36 评论:0

在本文中,我们将深入研究 Google 的内部运作方式,这是一个我们每天都使用的工具,但很少有人真正理解。继最近针对谷歌的反垄断诉讼中的文件泄露之后,我们有一个独特的机会来探索谷歌的算法。其中一些算法是已知的,但有趣的是从未与我们共享的内部信息。

我们将研究这些技术如何处理我们的搜索并确定我们看到的结果。在本次分析中,我的目标是提供每个 Google 搜索背后的复杂系统的清晰详细的视图。

此外,我将尝试用图表来表示谷歌的架构,同时考虑到新的发现。

谷歌的算法揭秘

首先,我们将重点提取 2 篇文档中提到的所有算法。第一个是关于 Pandu Nayak(Alphabet 副总裁)的证词,第二个是关于Douglas W. Oard 教授的反驳证词,涉及 Google 专家 Edward A. Fox 教授在 2022 年 6 月 3 日的报告中提出的意见。后一份文件对著名且有争议的“福克斯报告”进行了辩论,其中谷歌操纵了实验数据,试图证明用户数据对他们来说并不那么重要。

我将尝试根据官方信息(如果有)解释每个算法,然后将从试验中提取的信息放入图像中。

导航升压

这对谷歌来说很关键,也是最重要的因素之一。这也出现在2019 年的“Project Veritas”泄密事件中,因为 Paul Haar 将其添加到了他的简历中

Navboost收集有关用户如何与搜索结果交互的数据,特别是通过他们对不同查询的点击。该系统将点击次数制成表格,并使用从人造质量评级中学习的算法来提高结果的排名。这个想法是,如果某个结果经常被特定查询选择(并给予积极评价),那么它可能应该具有更高的排名。有趣的是,谷歌多年前就尝试过删除 Navboost,结果发现结果变得更糟。

兰克大脑

RankBrain于 2015 年推出,是一个 Google 人工智能和机器学习系统,对于处理搜索结果至关重要。通过机器学习,它不断提高理解语言和搜索背后意图的能力,并且在解释模糊或复杂的查询时特别有效。据说它已经成为谷歌排名中第三重要的因素,仅次于内容和链接。它使用张量处理单元(TPU)来显着增强其处理能力和能源效率。

我推断QBST术语权重是 RankBrain 的组成部分。所以,我把它们包括在这里。

QBST(基于查询的显着术语)专注于查询和相关文档中最重要的术语,使用此信息来影响结果的排名方式。这意味着搜索引擎可以快速识别用户查询的最重要方面并确定相关结果的优先级。例如,这对于不明确或复杂的查询特别有用。

在证词文件中,在 BERT 的局限性的背景下提到了QBST 。特别提到的是,“BERT 不包含 navboost、QBST 等大型记忆系统”。这意味着,虽然 BERT 在理解和处理自然语言方面非常有效,但它也有一定的局限性,其中之一就是它处理自然语言的能力。或者取代像 QBST 这样的大规模记忆系统。

术语权重根据用户与搜索结果的交互方式调整查询中各个术语的相对重要性。这有助于确定某些术语在查询上下文中的相关程度。这种加权还可以有效地处理搜索引擎数据库中非常常见或非常罕见的术语,从而平衡结果。

深度排名

进一步理解自然语言,使搜索引擎能够更好地理解查询的意图和上下文。这是通过BERT实现的;事实上,DeepRank 是 BERT 的内部名称。通过对大量文档数据进行预训练,并根据点击和人工评分的反馈进行调整,DeepRank 可以微调搜索结果,使其更加直观且与用户实际搜索的内容相关。

排名嵌入

RankEmbed可能专注于嵌入相关特征进行排名的任务。虽然文档中没有透露其功能和能力的具体细节,但我们可以推断它是一个深度学习系统,旨在改进谷歌的搜索分类过程。

RankEmbed-BERT

RankEmbed-BERT是RankEmbed的增强版本,整合了BERT的算法和结构。进行这种集成是为了显着提高 RankEmbed 的语言理解能力。如果不使用最新数据进行重新训练,其有效性可能会降低。对于其训练,它仅使用一小部分流量,这表明没有必要使用所有可用数据。

RankEmbed-BERT 与 RankBrain 和 DeepRank 等其他深度学习模型一起,为 Google 搜索系统中的最终排名分数做出贡献,但将在初始检索结果(重新排名)后运行。它根据点击和查询数据进行训练,并使用人类评估者 (IS) 的数据进行微调,并且训练的计算成本比 RankBrain 等前馈模型更高。

妈妈

它比BERT强大大约 1,000 倍,代表了 Google 搜索的重大进步。它于 2021 年 6 月推出,不仅可以理解 75 种语言,而且还是多模式的,这意味着它可以解释和处理不同格式的信息。这种多模式功能使MUM能够提供更全面、更符合上下文的响应,从而减少多次搜索以获得详细信息的需要。然而,由于其高计算需求,它的使用非常有选择性。

七巧板和胶水

所有这些系统都在Tangram框架内协同工作,Tangram 负责将 SERP 与来自Glue 的数据组装在一起。这不仅仅是对结果进行排名的问题,而是以一种对用户有用且易于访问的方式组织它们,考虑图像轮播、直接答案和其他非文本元素等元素。

最后,Freshness NodeInstant Glue确保结果是最新的,更加重视最新信息,这在新闻或时事搜索中尤其重要。

在审判中,他们提到了尼斯的袭击,查询的主要意图在袭击当天发生了变化,导致Instant Glue压制了七巧板的一般图像,转而宣传尼斯的相关新闻和照片(《nice图片”与“漂亮的图片”):

有了这一切,谷歌将把这些算法结合起来:

理解查询:解读用户在搜索栏中输入的单词和短语背后的意图。确定相关性:使用过去交互的信号和质量评级,根据内容与查询的匹配程度对结果进行排名。优先考虑新鲜度:确保最新鲜和最相关的信息在重要的时候在排名中上升。个性化结果:不仅根据查询定制搜索结果,还根据用户的上下文(例如他们的位置和他们正在使用的设备)定制搜索结果。几乎没有比这更个性化的了。

从迄今为止我们所看到的一切来看,我相信TangramGlueRankEmbed-BERT是迄今为止唯一泄露的新颖项目。

正如我们所看到的,这些算法受到各种指标的滋养,我们现在将再次分解这些指标,从试验中提取信息。

Google 用于评估搜索质量的指标

在本节中,我们将再次关注 Douglas W. Oard 教授的反驳证词,并包含之前泄露的信息,即“Project Veritas”泄露的信息。

在其中一张幻灯片中,谷歌使用以下指标来开发和调整其算法在对搜索结果进行排名时考虑的因素,并监控其算法的变化如何影响搜索结果的质量。目标是尝试捕捉用户的意图。

1.IS分数

人类评估员在谷歌搜索产品的开发和完善中发挥着至关重要的作用。通过他们的工作,根据评估者的评分生成了名为“IS 分数”(信息满意度分数,范围从 0 到 100)的指标,并用作 Google 质量的主要指标。

它是匿名评估的,评估人员不知道他们是在测试 Google 还是 Bing,并且它用于将 Google 的性能与其主要竞争对手进行比较。

这些 IS 分数不仅反映了感知质量,还用于训练 Google 搜索系统中的各种模型,包括 RankBrain 和 RankEmbed BERT 等分类算法。

根据文件,截至 2021 年,他们正在使用 IS4。IS4 被认为是用户效用的近似值,并且应如此对待。它被描述为可能是最重要的排名指标,但他们强调它是一个近似值,并且容易出现错误,我们将在稍后讨论。

还提到了该度量的派生IS4@5。

Google 使用IS4@5指标来衡量搜索结果的质量,特别关注前五个位置该指标包括两个特殊搜索功能,例如单一框(称为“蓝色链接”)。该指标有一个变体,名为IS4@5web,它专门专注于评估前五个网络结果,不包括搜索结果中的广告等其他元素。

尽管 IS4@5对于快速评估搜索中排名靠前的结果的质量和相关性很有用,但其范围有限。它没有涵盖搜索质量的所有方面,特别是在结果中省略广告等元素。因此,该指标提供了搜索质量的部分视图。为了完整、准确地评估谷歌搜索结果的质量,有必要考虑更广泛的指标和因素,类似于如何通过各种指标而不仅仅是通过权重来评估一般健康状况。

人类评估者的局限性

评估者面临几个问题,例如理解技术查询或判断产品的受欢迎程度或查询的解释。此外,像 MUM 这样的语言模型可能会像人类评估者一样理解语言和全球知识,这为相关性评估的未来带来了机遇和挑战。

尽管它们很重要,但他们的观点与真实用户的观点有很大不同。评估者可能缺乏用户可能拥有的与查询主题相关的特定知识或先前经验,从而可能影响他们对搜索结果的相关性和质量的评估。

根据 2018 年和 2021 年泄露的文件,我编制了一份 Google 在内部演示中发现的所有错误的列表。

时间不匹配:由于查询、评估和文档可能来自不同时间,因此可能会出现差异,导致评估无法准确反映文档的当前相关性。重用评估:重用评估来快速评估和控制成本的做法可能会导致评估无法代表内容的当前新鲜度或相关性。理解技术查询:评估者可能不理解技术查询,导致评估专业或利基主题的相关性遇到困难。评估流行度:评估者在判断竞争性查询解释或竞争对手产品的流行度时存在固有的困难,这可能会影响他们评估的准确性。评估者的多样性:某些地方的评估者缺乏多样性,而且他们都是成年人,这一事实并不能反映 Google 用户群(包括未成年人)的多样性。用户生成的内容:评估者往往对用户生成的内容很苛刻,这可能会导致低估其价值和相关性,尽管它很有用且相关。新鲜度节点训练:由于缺乏足够的训练标签,它们表明调整新鲜度模型存在问题。人类评估者通常不会对相关性的新鲜度给予足够的重视,或者缺乏查询的时间上下文。这导致低估了寻求新颖性的查询的最新结果。现有的基于 IS 并用于训练 Relevance 和其他评分曲线的 Tangram Utility 也遇到了同样的问题。由于人工标签的限制,新鲜度节点首次发布时的评分曲线是手动调整的。

我真诚地相信,人类评估者对“寄生虫 SEO”的有效运作负有责任,这一点最终引起了丹尼·沙利文的注意,并在这条推文中分享:

如果我们看看最新质量指南的变化,我们可以看到他们最终如何调整了需求满足指标的定义,并包含了一个新的例子供评估者考虑,即使结果是权威的,如果它不包含用户正在搜索的信息,不应该给予很高的评价。

谷歌Notes的新推出,相信也说明了这个原因。Google 无法 100% 确定什么构成优质内容。

我相信我正在讨论的这些几乎同时发生的事件并不是巧合,我们很快就会看到变化。

2.PQ(页面质量)

在这里我推断他们正在谈论页面质量,所以这是我的解释。如果是这样,那么审判文件中除了提及作为使用的指标之外没有任何其他内容。我所拥有的唯一提到 PQ 的官方资料来自《搜索质量评估指南》,该指南会随着时间的推移而发生变化。因此,这将是人类评估者的另一项任务。

该信息也被发送到算法以创建模型。在这里我们可以看到“Project Veritas”中泄露的一个提案:

这里有趣的一点是,根据文件,质量评估者只评估移动设备上的页面

3.并排

这可能是指将两组搜索结果并排放置的测试,以便评估者可以比较它们的相对质量。这有助于确定哪组结果对于给定的搜索查询更相关或更有用。如果是这样,我记得 Google 有自己的可下载工具 sxse。

该工具允许用户投票选出他们喜欢的搜索结果集,从而提供有关搜索系统不同调整或版本的有效性的直接反馈。

4. 现场实验

《搜索工作原理》中发布的官方信息称,谷歌在向所有人推出新功能之前,会利用真实流量进行实验,以测试人们如何与新功能互动。他们为一小部分用户激活该功能,并将他们的行为与没有该功能的对照组进行比较。用户与搜索结果交互的详细指标包括:

点击结果执行的搜索次数查询放弃人们点击结果需要多长时间

这些数据有助于衡量与新功能的交互是否积极,并确保更改提高搜索结果的相关性和实用性。

但试验文件只强调了两个指标:

位置加权长点击:该指标会考虑点击的持续时间及其在结果页面上的位置,反映用户对他们找到的结果的满意度。注意:这可能意味着测量在页面上花费的时间,从而了解用户与结果及其内容交互的时间。

此外,在 Pandu Nayak 的证词笔录中,解释了他们使用交错而不是传统的 A/B 测试进行了大量的算法测试。这使他们能够进行快速可靠的实验,从而使他们能够解释排名的波动。

5.新鲜度

新鲜度是结果和搜索功能的一个重要方面。必须在相关信息可用时立即显示它,并在内容过时时停止显示内容。

对于在 SERP 中显示最新文档的排名算法,索引和服务系统必须能够以非常低的延迟发现、索引和服务新文档。尽管理想情况下,整个索引应尽可能保持最新,但技术和成本限制阻碍了以低延迟对每个文档建立索引。索引系统对不同路径上的文档进行优先级排序,在延迟、成本和质量之间提供不同的权衡。

存在这样的风险:非常新鲜的内容的相关性将被低估,相反,具有大量相关性证据的内容将由于查询含义的变化而变得不那么相关。

新鲜度节点的作用是对过时的分数进行修正。对于寻求新鲜内容的查询,它会提升新鲜内容并降低过时内容的质量。

不久前,有消息称Google Caffeine 已不复存在(也称为基于 Percolator 的索引系统)。虽然内部仍然使用旧名称,但现在存在的实际上是一个全新的系统。新的“咖啡因”实际上是一组相互通信的微服务。它意味着索引系统的不同部分作为独立但互连的服务运行,每个部分执行特定的功能。这种结构可以提供更大的灵活性、可扩展性,并且易于更新和改进。

据我解释,这些微服务的一部分是七巧板和胶水,特别是新鲜度节点即时胶水。我这么说是因为在《Veritas 项目》的另一份泄露文件中,我发现 2016 年有一项提案提出或合并“即时 Navboost”作为新鲜度信号以及 Chrome 访问。

到目前为止,他们已经整合了“Freshdocs-instant”(从名为 freshdocs-instant-docs pubsub 的 pubsub 列表中提取,他们在其中获取了这些媒体在发布后 1 分钟内发布的新闻)以及搜索峰值和内容生成相关性:

在新鲜度指标中,通过对相关 Ngram 和相关显着术语的分析,我们检测到了几个指标:

相关 NGram:这些是以统计上显着的模式一起出现的单词组。在事件或趋势主题期间,相关性可能会突然增加,表明出现峰值。相关显着术语:这些是与主题或事件密切相关的突出术语,并且其出现频率在短时间内在文档中增加,表明兴趣或相关活动激增。

一旦检测到峰值,就可以使用以下新鲜度指标:

Unigrams (RTW):对于每个文档,使用标题、锚文本和正文的前 400 个字符。这些被分解为与趋势检测相关的一元组,并添加到Hivemind索引中。正文一般包含文章的主要内容,排除重复或共同的元素(样板文件)。自纪元以来的半小时 (TEHH):这是一种时间度量,表示为自 Unix 时间开始以来的半小时数。它有助于以半小时的精度确定某件事发生的时间。知识图实体(RTKG):对 Google 知识图谱中对象的引用,它是真实实体(人、地点、事物)及其互连的数据库。它有助于通过语义理解和上下文来丰富搜索。S2 Cells (S2):对 Google 知识图谱中对象的引用,它是真实实体(人、地点、事物)及其互连的数据库。它有助于通过语义理解和上下文丰富搜索。Freshbox 文章评分 (RTF):这些是地球表面的几何划分,用于地图中的地理索引。它们促进了网络内容与精确地理位置的关联。文档 NSR (RTN):这可以指文档的新闻相关性,似乎是确定文档与当前故事或趋势事件的相关性和可靠性的指标。该指标还可以帮助过滤掉低质量或垃圾内容,确保索引和突出显示的文档具有高质量,并且对于实时搜索具有重要意义。地理维度:定义文档中提到的事件或主题的地理位置的特征。这些可以包括坐标、地名或标识符(例如 S2 单元格)。

如果您从事媒体工作,这些信息至关重要,我总是将其纳入数字编辑培训中。

点击的重要性

在本节中,我们将重点关注在电子邮件中共享的 Google 内部演示文稿,标题为“统一点击预测”、“Google 是神奇的”演示文稿、“搜索全手”演示文稿、来自 Danny Sullivan 的内部电子邮件以及来自“ Veritas 项目泄露。

在整个过程中,我们看到点击对于理解用户行为/需求的根本重要性。换句话说,谷歌需要我们的数据。有趣的是,谷歌被禁止谈论的事情之一就是点击量。

在开始之前,需要注意的是,讨论有关点击的主要文档早于 2016 年,并且自那时起 Google 发生了重大变化。尽管发生了这种演变,他们的方法的基础仍然是对用户行为的分析,并将其视为质量信号。您还记得他们解释 CAS 模型的专利吗?

用户提供的每一次搜索和点击都有助于Google的学习和持续改进。这种反馈循环使谷歌能够适应和“学习”搜索偏好和行为,保持它理解用户需求的错觉。

每天,谷歌都会在一个系统中分析超过十亿个新行为,该系统旨在根据过去的数据不断调整和超越未来的预测。至少到2016年,这超出了当时人工智能系统的能力,需要我们之前看到的手动工作以及RankLab所做的调整。

据我了解, RankLab是一个测试信号和排名因素中不同权重以及其后续影响的实验室。他们还可能负责内部工具“Twiddler”(我几年前也从“Project Veritas”读到过这个工具),其目的是手动修改某些结果的 IR 分数,或者换句话说,能够做到这一点以下所有内容:

在这个短暂的插曲之后,我继续。

虽然人工评估者评级提供了基本视图,但点击提供了更详细的搜索行为全景。

这揭示了复杂的模式并允许学习二阶和三阶效应。

二阶效应反映了新兴模式:如果大多数人更喜欢并选择详细的文章而不是快速列表,谷歌就会检测到这一点。随着时间的推移,它会调整算法,在相关搜索中优先考虑那些更详细的文章。三阶效应是更广泛、长期的变化:如果点击趋势有利于综合指南,内容创作者就会适应。他们开始制作更详细的文章和更少的列表,从而改变了网络上可用内容的性质。

在分析的文档中,提出了通过点击分析提高搜索结果相关性的具体案例。尽管被 15,000 个被认为不相关的文档包围,但 Google 根据点击次数发现,用户对一些最终相关文档的偏好存在差异。这一发现凸显了用户点击作为识别大量数据中隐藏相关性的宝贵工具的重要性。

谷歌“通过过去的训练来预测未来”以避免过度拟合。通过不断的评估和数据更新,模型保持最新和相关性。该策略的一个关键方面是本地化个性化,确保结果适合不同地区的不同用户。

关于个性化,在最近的一份文件中,谷歌声称它是有限的,并且很少改变排名。他们还提到它从未出现在《头条新闻》中。使用它的时间是为了更好地理解正在搜索的内容,例如,使用之前搜索的上下文,以及通过自动完成提出预测建议。他们提到,他们可能会稍微提升用户经常使用的视频提供商,但每个人都会看到基本相同的结果。他们认为,查询比用户数据更重要。

重要的是要记住,这种以点击为中心的方法面临着挑战,特别是对于新的或不常见的内容。评估搜索结果的质量是一个复杂的过程,不仅仅是计算点击次数。虽然我写的这篇文章已经有好几年了,但我认为它可以帮助更深入地研究这个问题。

谷歌的架构

继上一节之后,这是我在脑海中形成的关于如何将所有这些元素放置在图表中的图像。谷歌架构的某些组件很可能不在某些地方或不相关,但我相信它作为近似值是绰绰有余的。

谷歌可能的功能和架构。单击可放大图像。

Google 和 Chrome:成为默认搜索引擎和浏览器的斗争

在最后一节中,我们重点关注专家证人、行为经济学家兼加州理工学院教授安东尼奥·兰格尔 (Antonio Rangel) 的证词,内容涉及使用默认选项影响用户选择,在内部演示文稿中披露了《论默认主页对 Google 的战略价值》,以及Google 副总裁 Jim Kolotouros 在一封内部电子邮件中的声明。

正如吉姆·科洛图罗斯(Jim Kolotouros)在内部通讯中透露的那样,Chrome 不仅仅是一个浏览器,而且是谷歌搜索主导地位谜题的关键部分。

谷歌收集的数据包括搜索模式、搜索结果的点击次数以及与不同网站的互动,这对于完善谷歌的算法、提高搜索结果的准确性和定向广告的有效性至关重要。

对于 Antonio Rangel 来说,Chrome 的市场霸主地位超越了它的受欢迎程度。它充当谷歌生态系统的门户,影响用户访问信息和在线服务的方式。Chrome 与默认搜索引擎 Google 搜索的集成使 Google 在控制信息流和数字广告方面具有显着优势。

尽管谷歌很受欢迎,但必应并不是一个劣等的搜索引擎。然而,许多用户更喜欢谷歌,因为其默认配置的便利性和相关的认知偏差。在移动设备上,默认搜索引擎的影响更大,因为更改默认搜索引擎会产生摩擦。最多需要点击 12 次才能修改默认搜索引擎。

这种默认偏好也会影响消费者的隐私决策。谷歌的默认隐私设置给那些喜欢更有限的数据收集的人带来了很大的阻力。更改默认选项需要了解可用的替代方案,了解更改和实施的必要步骤,这意味着相当大的摩擦。此外,现状和损失厌恶等行为偏见使用户倾向于维持谷歌的默认选项。我在这里更好地解释这一切。

Antonio Rangel 的证词直接与谷歌内部分析爆料产生共鸣。该文件揭示,浏览器的主页设置对搜索引擎的市场份额和用户行为具有重大影响。具体来说,将 Google 作为默认主页的用户在 Google 上执行的搜索量比没有将 Google 作为默认主页的用户多 50%。

这表明默认主页和搜索引擎偏好之间存在很强的相关性。此外,这种环境的影响因地区而异,在欧洲、中东、非洲和拉丁美洲更为明显,而在亚太和北美则不太明显。分析还表明,与雅虎和 MSN 等竞争对手相比,谷歌更不容易受到主页设置变化的影响,如果雅虎和 MSN 等竞争对手失去此设置,可能会遭受重大损失。

主页设置被认为是谷歌的一个关键战略工具,不仅是为了保持其市场份额,也是其竞争对手的一个潜在漏洞。此外,它强调大多数用户不会主动选择搜索引擎,而是倾向于其主页设置提供的默认访问。从经济角度来看,当 Google 设置为主页时,每个用户的生命周期增量价值预计约为 3 美元。

结论

在探索了 Google 的算法和内部工作原理之后,我们看到了用户点击和人工评估员在搜索结果排名中发挥的重要作用。

点击作为用户偏好的直接指标,对于 Google 不断调整和提高其响应的相关性和准确性至关重要。尽管有时当数字不相加时他们可能想要相反的结果……

此外,人类评估者贡献了至关重要的评估和理解,即使在人工智能时代,这仍然是不可或缺的。就我个人而言,我对此感到非常惊讶,因为我知道评估者很重要,但还没有达到这个程度。

这两种输入相结合,通过点击和人工监督进行自动反馈,使谷歌不仅能够更好地理解搜索查询,而且能够适应不断变化的趋势和信息需求。随着人工智能的进步,看看谷歌如何继续平衡这些元素,以在不断变化的生态系统中改善和个性化搜索体验,并关注隐私,将会很有趣。

另一方面,Chrome 不仅仅是一个浏览器;它还不仅仅是一个浏览器。这是他们数字主导地位的关键组成部分。它与 Google 搜索的协同作用及其在许多领域的默认实施影响着市场动态和整个数字环境。我们将拭目以待反垄断审判如何结束,但他们已经十多年来没有因滥用支配地位而支付约 100 亿欧元的罚款。

分享到:

本文 zblog模板 原创,转载保留链接!网址:http://fsxxzx.com/post/4101.html

可以去百度分享获取分享代码输入这里。
声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

关注我们

扫一扫关注我们,了解最新精彩内容

标签列表