浅谈搜索引擎的工作原理

时间：2020-05-06 13:55:25 来源：作者：

前面2期介绍seo的时候就讲到了关于SEO的基本定义，这里再次简单回顾下吧！

SEO(搜索引擎优化)通常定义为：在了解搜索引擎的工作原理基础上，对网站进行内外调整优化，提高网站关键词排名，获得更多流量，达成网站的营销目的。通过这一定义，我们可以看到，做SEO首先需要知道我们搜索引擎的工作原理是怎样的，只有搞清楚它的原理，我们才可以本着这一原理进行做后期优化工作。这就是今天这一期重点和大家分享的话题：搜索引擎的工作原理！

由于搜索引擎这一块的专业知识涉及很广，可以单独作为一门学科来系统化学习的，所以建议新手刚开始学SEO的时候可以先多学习下搜索引擎这一块知识哦，也可以自己买本搜索引擎原理的书籍看看也行，只有理解了搜索引擎的工作原理后，我们对后期优化工作才有了明确的方向！

搜索引擎的工作原理

首先搜索引擎的工作原理大体上分为三个阶段：

爬行与抓取：搜索引擎蜘蛛(Spider)通过跟踪链接发现和访问页面，然后读取html代码，存入数据库中；
预处理：搜索引擎蜘蛛抓取来的页面数据进行文字提取，中文分词，索引(正向索引)，倒排索引等，以备后面排名和展现；
排名：通过一定的搜索相关性计算，按照一定格式生成搜索结果页面。

搜索引擎的工作原理

针对这三个阶段详细说下搜索引擎的工作原理：

爬行与抓取

1、跟踪链接：一般是深度优先和广度优先两种跟踪方式，如图所示：

深度优先跟踪链接

广度优先跟踪链接

理论上，无论是哪种跟踪方式，只要给蜘蛛足够多时间，都能爬完整个互联网上的链接，但实际上，蜘蛛的宽带资源和时间都是非常有限的，不可能爬完所有的链接，最多只能爬行和收录一小部分，所以我们做SEO工作就需要主动吸引蜘蛛来爬行和收录我们的页面。

2、吸引蜘蛛：哪些页面可以吸引到蜘蛛呢？符合以下几点就足以。

第一，网站和页面权重。权重越高，蜘蛛就越喜欢，尤其是老网站，质量高的网站；
第二，页面更新频率。蜘蛛喜欢新鲜事物，所以网站这一块也需要经常多跟新；
第三，导入链接。无论是外链还是内链，只要多给蜘蛛爬行页面的路径，页面收录率和排名会更高；
第四，与首页点击距离。一般网站首页权重最高，所以页面里首页的点击距离越近，爬行和收录机会更高；
第五，URL结构。首先符合静态化最好，其次URL越短，层次越少，蜘蛛爬行的机会就更大些，页面收录机会也就更大。

预处理

这里所说的预处理包括：提取文字，中文分词，去停止词，消除噪声，去重，正向索引，倒排索引，链接关系计算，特殊文件处理以及质量判断等等，由于内容过多，这里不多做详细说明，主要讲下正向索引和倒排索引这两块核心内容，有些书籍把预处理这一阶段定义为索引，其实也是说明了正向索引和倒排索引的重点，首先看下面示意图：

正向索引结构

倒排索引结构

上图中文件就是指页面了，关键词就是与用户所搜索的词相匹配的关键词，这里的关键词是搜索引擎内部存储的关键词，也是基于过去用户所搜索过的词，进行一次收集和整理所得出来的。通过对比两种索引结构就可以看出，倒排索引更能符合搜索引擎的工作要求，当用户搜索某一关键词时候，搜索引擎系统内部便能一次性直接导出与关键词相匹配的页面，然后再通过链接相关性计算，特殊文件处理，页面质量判断得出哪些页面可以用作搜索结果页面中，最后以排名的方式显示出来。

排名

进行预处理过后，尤其是倒排索引处理之后，然后对用户搜索词处理以及相应的文件匹配，得出初始文件的子集，这里的初始文件子集并不能直接用于排名，还要进行相关性计算，排名过滤和调整，最终显示出页面的排名结果。这里的相关性计算，主要是根据关键词常用程度、词频和密度、关键词位置及形式、关键词距离、链接分析及页面权重等来得出页面的内容是否和用户搜索的词高度相关。

好了，关于搜索引擎的工作原理大致上就说这么多了，其实还有很多详细地方没有具体说到，由于涉及过广，大家可以多了解下搜索引擎这一块的内容，可以借助相关书籍来系统学习这一块的内容哦！本期的SEO分享就到这里了，大家有任何问题和想法都可以在评论下方留言咨询哦！

Tags：搜索引擎点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

搜索的基本原理以及搜索引擎和关键词的关系

今天不讲信息流，讲点其他的，比如搜索搜索是什么东西？见过开店卖东西吧，原理大同小异。比如我在步行街租个店铺，开个鞋店，每天在店里等着来步行街的人进我店里买我的鞋。百度搜索就...【详细内容】

2021-12-24　　Tags: 搜索引擎点击:(9)　　评论:(0)　　加入收藏

白帽黑客如何使用Baidu搜索引擎高级搜索技巧

一、背景介绍在网上冲浪少不了用到搜索引擎，而很多朋友都习惯把Google视为第一个选择对象。当然Google无论在搜索速度还是结果关联性方面都是十分优秀的。但百度（http://www.b...【详细内容】

2021-11-05　　Tags: 搜索引擎点击:(31)　　评论:(0)　　加入收藏

百度SEO搜索引擎优化为什么会提倡"白帽"拒绝"黑帽"

在SEO优化的职业里，运用搜索引擎对网页内容的检索原理，对网站内部外部资源进行优化整合，然后到达抱负的作用，便利客户快速找到想要的信息。在分类上也可分白帽SEO和黑帽SEO。一...【详细内容】

2021-10-22　　Tags: 搜索引擎点击:(36)　　评论:(0)　　加入收藏

搜索引擎蜘蛛是如何判断文章质量的？

网络推广计划表示在网站优化时，内容优化也是重中之重，其中有关文章的优化也让站长们苦恼不已，因为不太清楚蜘蛛对网站文章的质量评判是如何的，很难做到更精准的蜘蛛“取向”，那么...【详细内容】

2021-10-22　　Tags: 搜索引擎点击:(45)　　评论:(0)　　加入收藏

变味的“搜索引擎优化” 负面信息压制条款有效吗？

搜索引擎是公众获取信息的重要渠道，也是众多企业进行宣传营销的重要阵地。而随着“有偿删帖”入刑，通过各种“非删除”方式进行网络负面舆论压制也成为相关行业的主流操作。...【详细内容】

2021-09-07　　Tags: 搜索引擎点击:(62)　　评论:(0)　　加入收藏

百度搜索引擎算法调整，为什么不能做站内泛目录？

作为一名专业的SEO从业者，对于任何SEO项目的推进，都是建立在搜索策略基础之上，因此，定期关注搜索动态是一个必修课，只有这样我们才能更好的制定优化策略。比如：百度本次升级蓝天算...【详细内容】

2021-07-28　　Tags: 搜索引擎点击:(72)　　评论:(0)　　加入收藏

普通人使用搜索引擎VS黑客使用搜索引擎

搜索引擎已经成为上网必不可少的工具之一，聪明的黑客们发现，搜索引擎也能成为发动网络攻击的工具。 Google Hacking，原指利用Google搜索引擎搜索信息来进行入侵的技术和行为，如...【详细内容】

2021-06-16　　Tags: 搜索引擎点击:(136)　　评论:(0)　　加入收藏

如何在手机上查看搜索引擎快照？

搜索引擎快照是一个非常方便且实用的工具，它能够在搜索结果不可用的时候（无法访问、被删除），快速查看到内容，不受网站宕机影响。但在目前的移动搜索引擎页面，想要查看快照非常困难...【详细内容】

2021-04-26　　Tags: 搜索引擎点击:(282)　　评论:(0)　　加入收藏

什么是搜索引擎营销？

在学习搜索营销之前，我们应该弄清楚搜索引擎是什么。1.什么是搜索引擎？所谓搜索引擎，就是通过电脑程序爬行，追踪网页之间的链接。信息经过组织、加工后，向用户提供检索服务，并将...【详细内容】

2021-04-20　　Tags: 搜索引擎点击:(174)　　评论:(0)　　加入收藏

外贸越来越难做了？告诉你如何利用搜索引擎高效开发客户！

不知不觉从事外贸行业已经5年多了，这些年一直靠着公司分配的询盘过活。但公司网站本来没什么询盘，能分到我的就更少了，所以业绩你们可想而知。去年开始，公司为了拓展业务，给我们新增了主动开发客户渠道，希望每个业务员都...【详细内容】

2021-04-16　　Tags: 搜索引擎点击:(140)　　评论:(0)　　加入收藏

▌简易百科推荐

搜索的基本原理以及搜索引擎和关键词的关系

2021-12-24　　运营王明皓　　　　Tags:搜索　点击:(9)　　评论:(0)　　加入收藏

GoogleAds广告账户免费诊断分析工具，2021最新免费Google Ads诊断

在过去的时间中，我写了比较多的关于谷歌SEO推广，今天来写写GoogleAds广告账户免费诊断分析。今天我们的主题是：如何借助GoogleAds广告账户免费诊断分析工具，来诊断并优化你的Goo...【详细内容】

2021-10-26　　优易化海外营销推广　　　　Tags:GoogleAds 　点击:(43)　　评论:(0)　　加入收藏

什么是霸屏引流？百度霸屏好不好？百度霸屏怎么做？

霸屏通俗来讲就是霸占屏幕，百度霸屏就是在百度搜索的结果中，除了竞价内容，剩下的都是我们品牌词或网站的内容。以用户的搜索习惯来说，一般翻两三页就不会再继续翻下去了。所以我...【详细内容】

2021-10-22　　聪少爱学堂　　　　Tags:霸屏引流　点击:(50)　　评论:(0)　　加入收藏

搜索引擎蜘蛛是如何判断文章质量的？

2021-10-22　　云霸屏　　　　Tags:搜索引擎　点击:(45)　　评论:(0)　　加入收藏

为什么百度站长平台关键词查询排名与实际搜索结果不符？

我们在做SEO优化的过程中，通常都会用到百度站长平台、5118、站长工具等seo工具，用来分析查询关键词排名。特别是百度站长平台中的分析数据很多，其中百度站长工具中的流量与关键...【详细内容】

2021-10-22　　双丝网络　　　　Tags:百度站长平台　点击:(36)　　评论:(0)　　加入收藏

网站要如何优化才能让蜘蛛更喜欢？

网络推广费用了解到，网站关键词排名效果想要更好，就要扎实的做好优化工作。关键词排名高的网站能更优秀的出现在搜索引擎首页，获得更多的用户浏览，得到更高的权重，从而给企业带来...【详细内容】

2021-09-25　　云霸屏　　搜狐号　　Tags:蜘蛛　点击:(39)　　评论:(0)　　加入收藏

百度搜索信风算法，终结了使用翻页键诱导用户行为的做法

百度搜索贸易风算法，消除了使用翻页键诱导用户行为，简单地告诉我们，只要你的翻页按钮存在异常跳转行为，无论跳转到哪个页面，都属于该算法的覆盖范围。百度的搜索交易风算法主要攻...【详细内容】

2021-08-31　　羽西223　　　　Tags:信风算法　点击:(66)　　评论:(0)　　加入收藏

浅谈Google Analytics

1 前言现今互联网上的很多产品、战略决策都由数据驱动，以BulletTech为例，在运营微信公众号时，通过后台数据我们对每篇文章都会进行流量来源、裂变和阅读完关注等重要指标的监控...【详细内容】

2021-08-02　　BulletTech　　　　Tags:Google Analytics 　点击:(95)　　评论:(0)　　加入收藏

百度升级蓝天算法：打击网站出租目录行为

昨晚松松编辑杰哥了解到，百度搜索最近对算法更新了，全面升级“蓝天算法”2.0版本，主要针对高权重网站出租二级目录和二级域名行为，这是要开始加大清洗目录出租站点了吗? 根据杰...【详细内容】

2021-07-29　　卢松松　　　　Tags:蓝天算法　点击:(76)　　评论:(0)　　加入收藏

如何解决网站不收录，网站排名冲突，网站流量不稳定等问题

网罗天下谈运营2021-07-20在做SEO的过程中，对于企业主而言，没有人刚开始建立网站的时候就会先知先觉，采用完全正确的SEO优化方法，这很必然会导致一些问题，比如：① 站内目录层级繁...【详细内容】

2021-07-21　　Lollipop　　　　Tags:网站不收录　点击:(82)　　评论:(0)　　加入收藏

推荐资讯

聊聊如何自定义数据脱	河南人到底有多爱吃面
人称“犬中四煞”的4	离婚后，约定每月给孩子
“三皇五帝”分别是哪	印度低种姓群体如何翻
日本研发“飞行摩托”	2021年Steam最畅销游