谷歌搜索排名的底层逻辑

hzqadmin 阅读:29 2024-07-17 21:08:09 评论:0

这篇文章是基于谷歌公司负责搜索引擎的副总裁Pandu Nayak在10月份美国针对谷歌的反垄断案中的证词和提交的文件整理而来。

虽然部分文件未对外开放,但现有的官方资料已经提供了大量信息,对于对搜索引擎优化(SEO)感兴趣的人来说,这是一个值得深入研究的资源。

我尽量用最朴实的句子来把这些信息解读一下, 方便大家理解:

谷歌搜索的工作原理:

1.Google索引系统

谷歌搜索是基于网络的。网络就是由很多网页和链接组成的一个巨大的信息库。每个网页都有一个地址,叫做 URL,就像你家的门牌号一样。

谷歌搜索的第一步,就是要把网络上的所有网页都收集起来,这个过程叫做爬取。

谷歌搜索用了一些特殊的程序,叫做爬虫,来不断地访问网络上的网页,并把它们的内容复制下来,这个过程叫做Index(索引)。

你可以把索引想象成一本很大的书,里面记录了每个网页的地址和内容。

但是,网络上的网页是不断变化和增加的,所以谷歌搜索要经常更新它的索引,把新的网页加进去,把旧的网页删掉,或者把变化的网页修改一下。

谷歌搜索的索引非常庞大,可能有 4000 亿个网页(最新泄露出来的2020年的数据),但是并不是所有的网页都有用,有些网页可能是重复的,有些网页可能是很垃圾的,有些网页可能是错误的。

Nayak 解释说,规模并非一切, 网络上存在大量重复内容。Google 的目标是创建一个“全面的索引”。

所以, 谷歌搜索要尽量把这些无用的网页从索引中去掉,只保留有用的网页,这样才能提高索引的质量。

“删除不是好信息的內容”是“提高索引质量”的一种方法。(所以如果你的文章质量很垃圾, 不如不发布, 通过删除网页, 3 个月内流量增加了 33%)

Nayak 还解释了索引在信息检索中的作用:

“So when you have a query, you need to go and retrieve documents from the index that match the query. The core of that is the index itself. Remember, the index is for every word, what are the pages on which that word occurs. 

And so — this is called an inverted index for various reasons. And so the core of the retrieval mechanism is looking at the words in the query, walking down the list — it’s called the postings list — and intersecting the postings list. 

This is the core retrieval mechanism. And because you can’t walk the lists all the way to the end because it will be too long, you sort the index in such a way that the likely good pages, which are high quality — so sometimes these are sorted by page rank, for example, that’s been done in the past, are sort of earlier in the thing. 

And once you’ve retrieved enough documents to get it down to tens of thousands, you hope that you have enough documents. 

So this is the core of the retrieval mechanism, is using the index to walk down these postings lists and intersect them so that all the words in the query are retrieved.”

翻译为:

“因此,当你有一个查询时,你需要从匹配查询的索引中检索文档。其核心是索引本身。记住,索引是对于每个单词,它出现在哪些页面上。因此——这就是所谓的倒排索引,出于各种原因。

因此,检索机制的核心是查看查询中的单词,向下遍历列表——它被称为 postings 列表——并交叉 postings 列表。这是检索机制的核心。而且因为你不能一直走到列表的末尾,因为这样会太长,所以你根据文档的质量对索引进行排序,这样质量好的文档,比如有时按 PageRank 排序的文档,就可以排在前面。

一旦你检索了足够的文档,将其减少到几万个,你希望你已经有了足够的文档。

所以这就是检索机制的核心,是使用索引来遍历这些 postings 列表并交叉它们,以便检索查询中的所有单词。”

大意为:

谷歌搜索是基于查询的。查询就是你在搜索框里输入的一些词,比如“谷歌搜索是如何工作的”。当你输入一个查询后,谷歌搜索就会从它的索引中找出和你的查询相关的网页,这个过程叫做检索。谷歌搜索会根据你的查询中的每个词,去索引中查找包含这些词的网页,然后把这些网页的地址和内容列出来,这个列表叫做 postings 列表。你可以把 postings 列表想象成一张清单,上面写着每个词出现在哪些网页上。谷歌搜索会把不同词的 postings 列表合并起来,找出同时包含所有词的网页,这些网页就是和你的查询匹配的网页。但是,和你的查询匹配的网页可能有很多,有些网页可能比其他网页更相关,更有用,更准确,更新鲜,更受欢迎。所以,谷歌搜索要对这些网页进行排序,把最好的网页放在前面,这个过程叫做Ranking(排名)对于 SEO 人员来说,掌握 Google 如何使用索引来检索文档是至关重要的。这样,你才能有效地创建更有可能与查询匹配的文档。同时,不要忽视排名的重要性。排名是决定你的页面在搜索结果中显示顺序的核心因素。排名靠前的页面不仅会获得更多的内容抓取和曝光,而且会吸引更多的用户点击和信任。

2. 谷歌排名系统

Google 使用索引来检索与查询匹配的页面, 那么它是如何从索引中找出和你的搜索查询最相关的网页的呢?

索引就是谷歌搜索收集和复制网络上的所有网页的一个巨大的数据库。查询就是你在搜索框里输入的一些词,比如“谷歌搜索是如何工作的”

有时候,你的查询可能和很多网页都有关系, 有可能是几百万个。比如你搜索"苹果", 可能世界上有几十万个网站都有关于"苹果"的网页, 这样的话,谷歌搜索就不知道该给你显示哪些网页了。所以, 谷歌搜索用了很多不同的方法和标准,叫做算法和机器学习模型,来帮助它对网页进行排序,让你看到最相关,最有用,最准确的网页。算法和机器学习模型就是一些规则和公式,告诉谷歌搜索如何判断和比较网页的好坏。Pandu Nayak曾在2021年发表的一篇文章中说过: Google 使用“数百个算法和机器学习模型,其中没有一个完全依赖于任何单个的大模型.意思是: 谷歌搜索的算法和机器学习模型有很多, 可能有几百个, 它们都有自己的作用和重要性。谷歌搜索不会只用一个或几个算法和机器学习模型来对网页进行排序,而是会用很多个,这样才能更准确和全面地评估网页的质量。Nayak解释说,这些算法和机器学习模型本质上是将索引“精简”到最相关的网页。

“So that’s — the next phase is to say, okay, now I’ve got tens of thousands. Now I’m going to use a bunch of signals to rank them so that I get a smaller set of several hundred. And then I can send it on for the next phase of ranking which, among other things, uses the machine learning.”

"因此,下一阶段就是,好吧,现在我已经有了几万个网页信息。现在,我将使用一系列信号对它们进行排名,这样就能得到一组较小的几百条信息。然后,我就可以将其送入下一阶段的排名系统中,其中包括使用机器学习系统来研究这些信息。

可以理解成下面的工作模式:

谷歌搜索会分几个阶段来对网页进行排序,每个阶段都会用不同的算法和机器学习模型,以及不同的信息和数据,叫做信号,来帮助它对网页进行排序。信号就是从网页的内容,质量,来源,链接,更新时间,点击率,用户评价等等方面收集和分析的信息和数据。谷歌搜索的第一个阶段,就是从索引中找出和你的查询相关的网页,这个过程叫做检索。这个阶段可能会找出几万个网页,但是这些网页还没有经过排序,所以还不知道哪些网页更好。谷歌搜索的第二个阶段,就是用一些信号来对这些网页进行初步的排序,这样就可以把网页的数量减少到几百个,这些网页就是更有可能和你的查询匹配的网页。谷歌搜索的第三个阶段,就是用更多的算法和机器学习模型,以及更多的信号,来对这些网页进行更细致的排序,这样就可以把网页的顺序确定下来,让你看到最好的网页。

谷歌搜索的一些算法和机器学习模型之前已经公布过,比如 BERT、Helpful Content System、PageRank、Review System等等,但是谷歌搜索还有一些新的和未公开的算法和机器学习模型.

3. 超过100种排名信号/因素

谷歌搜索用了很多不同的信息和数据,叫做Signal信号,来帮助它对网页进行排序。信号就是从网页的各个方面收集和分析的信息和数据,比如网页的内容,质量,来源,链接,更新时间,点击率,用户评价等等。谷歌搜索的信号有很多,但是并不是所有的信号都一样重要,有些信号可能比其他信号更有影响力

谷歌搜索排名的一些信号/因素大家可能已经知道,比如上面提到的网页的内容质量,链接这些, 信号是Factor因素的组成部分, 有时候也是一个单独的因素.

谷歌搜索还会使用一些其他的信号,根据Nayak的说法, 可能超过100 个.

Google 曾经说过它使用超过 200 个排名因素来对页面进行排名。这个数字在 2010 年短暂飙升至 10,000 个, (Google 的 Matt Cutts 曾解释说,Google 的 200 多个信号中的许多信号在一个因素中有多达 50 个变体)

现在, 根据 Nayak 的证词, Google 的信号数量已经下降到“可能还有100多个

Nayak 说, 对于检索文档来说, "最重要的信号(与Google的Gary Illyes 今年在Pubcon上所说的相吻合)可能来自文档本身"。

Nayak说: "我们所有的核心主题信号、页面质量信号、本地化信号。这些信号会对数以万计的网页进行分析,然后得出一个分数,再从中选出前几百个。

根据nayak的说法, 核心信号包括:

文件本身(又称 "页面上的文字内容"等)。核心主题页面质量可靠性本地化Navboost核心主题信号是衡量页面与查询相关性的关键指标。Nayak 说,这些信号包括:关键词出现的频率和位置关键词在页面中的语境页面中与关键词相关的其他内容页面质量信号页面质量信号是衡量页面整体质量的指标。Nayak 说,这些信号包括:页面内容的相关性和准确性页面结构和可用性页面信任度本地化信号本地化信号是衡量页面与用户搜索位置相关性的指标。Nayak 说,这些信号包括:页面内容是否与用户搜索位置相关页面是否针对用户搜索位置优化其他排名信号Nayak 在证词中提到了其他一些排名信号,包括:用户行为信号:例如,用户点击、滞留时间和跳出率社交信号:例如,社交媒体分享和回复付费广告:例如,广告排名总结一下

:

谷歌搜索的第一个阶段,就是从索引中找出和你的查询相关的网页,这个过程叫做检索。这个阶段可能会找出几万个网页,但是这些网页还没有经过排序,所以还不知道哪些网页更好。这个阶段最重要的信号可能是网页本身,也就是网页上的文字和其他内容。• 谷歌搜索的第二个阶段,就是用一些信号来对这些网页进行初步的排序,这样就可以把网页的数量减少到几百个,这些网页就是更有可能和你的查询匹配的网页。这个阶段的一些重要的信号有:• 主题性。这个信号是看网页的内容和你的查询的话题是否相关,比如你查询“谷歌搜索是如何工作的”,那么和谷歌搜索有关的网页就会得到更高的分数。• 页面质量。这个信号是看网页的内容是否有用,是否准确,是否可靠,是否有权威,是否有错误,是否有垃圾,等等,比如你查询“谷歌搜索是如何工作的”,那么来自谷歌官方或者专家的网页就会得到更高的分数。• 可靠性。这个信号是看网页的内容是否真实,是否客观,是否公正,是否有证据,是否有引用,等等,比如你查询“谷歌搜索是如何工作的”,那么有数据和事实支持的网页就会得到更高的分数。• 本地化。这个信号是看网页的内容是否和你的地区,语言,文化,习惯等等有关,比如你查询“谷歌搜索是如何工作的”,那么用你的母语写的,或者和你的国家或城市有关的网页就会得到更高的分数。• Navboost, 也叫Glue, 是一种观察用户点击和交互行为来评估网页质量的算法.

另外还有一个新的instant glue信号, 2021年被发现的, 在原先的基础上加上了新鲜度和时间的因素.

• 内容丰富度: 这个信号是看网页是否是一些特殊的类型,比如导航网页,新闻网页,图片网页,视频网页,地图网页,购物网页等等,比如你查询“谷歌搜索是如何工作的”,那么有视频或图片解释的网页就会得到更高的分数。• 谷歌搜索的第三个阶段,就是用更多的算法和机器学习模型,以及更多的信号,来对这些网页进行更细致的排序,这样就可以把网页的顺序确定下来,让你看到最好的网页。其他排名信号Nayak 在证词中提到了其他一些排名信号,包括:用户行为信号:例如,用户点击、滞留时间和跳出率社交信号:例如,社交媒体分享和回复付费广告:例如,广告排名点击Nayak 还讨论了点击对排名的影响。他表示,点击是“一个重要信号,但不是唯一信号”。Nayak 说:“点击是重要的,因为它们表明用户认为页面是相关和有用的。但是,还有其他信号可以帮助我们了解页面的质量。例如,我们可以查看页面的内容、结构和可用性。我们还可以查看来自其他来源的信号,例如社交媒体分享和回复。”人工评估Nayak证词中的一个有趣的发现是,Google会使用人工评估来评估页面质量。Nayak 说:“人工评估者是帮助我们了解页面质量的重要工具。他们可以告诉我们页面的内容是否相关和准确,页面是否易于使用,以及页面是否可信。我们使用人工评估者来评估各种类型的页面,包括搜索结果、广告和其他产品。”

4. SERP的组成

了解了前面的谷歌索引, 排名系统和排名系统之后, 最后就是SERP的部分了, SERP是谷歌搜索结果展现页的简称.

上图是一个典型的现代SERP, 包含了很多元素, 包括网页, 图片, 知识卡片和People also ask这些, 不久的将来还会加上SGE这些, 那么这些和我们做SEO有什么关系呢?

简单来说, 出现的位置=流量的多少.

不管是网页排名, 我们还有很多其他可以着力的地方.

优化标题, meta desrciption, 视频, 图片, 图片描述, 优化内容以赢得Feature snippet等都能帮助我们赢得排名的机会, 从而获得提高排名, 获得流量.

结论

Nayak的证词为我们揭开了Google搜索和排名机制的神秘面纱。这份证词确认了Google运用多种算法和机器学习模型来确定网页的排名,同时强调了用户行为数据、社交媒体信号和付费广告对排名的显著影响。对SEO专家而言,这些信息是极其宝贵的。关键的见解是,SEO策略应该集中在打造高品质、相关性强且对用户友好的内容上。这样的内容更有可能获得搜索结果中的高排名。

其次,不要忽视点击的重要性。点击是衡量页面质量的重要信号。

用户黏性, 停留时长等都要考虑.

第三,了解 Google 使用的各种排名信号。这将有助于您创建更有可能获得较高排名的页面。

Thats a wrap.

谷歌SEO要多久才能看到效果?Google SGE专利被公开, 生成式AI对SEO有哪些影响?独立站文章到底该写多长, 新趋势是写短文?独立站客户下单不付款的3大原因使用ChatGPT运营电商独立站(120条提示词)SEO做的非常好的网站案例 02

分享到:

本文 zblog模板 原创,转载保留链接!网址:http://fsxxzx.com/post/864.html

可以去百度分享获取分享代码输入这里。
声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

关注我们

扫一扫关注我们,了解最新精彩内容

排行榜
标签列表