搜索引擎的工作流程对于外界来说神秘而高不可测,其实搜索引擎的工作流程非常简单。当作为一般用户在使用搜索引擎时,很难去想象或者了解搜索引擎的工作原理是怎样的?所以正是因为对搜索引擎的工作流程不太了解,导致现在很多人都认为搜索引擎返回的结果是动态的,也就是用户输入一个语句进行关键字查询的时候,搜索引擎马上从互联网上抓取筛选结果,然后把查询的关键字结果反馈给用户。其实搜索引擎返回的结果是提前就已经抓取好了的,然后经过了一系列算法筛选之后放入数据库。当用户查询时就立即对索引数据库进行查找,然后又反馈给用户准确的关键字查询结果。
1、搜集信息形成快照
网页快照收录是搜索引擎通过蜘蛛程序在互联网上抓取页面并进行存储形成快照的过程,他为搜索引擎开展各项工作提供了数据支持。
搜索引擎的信息搜集基本上都是自动的。搜索引擎利用称为蜘蛛的自动搜集机器人程序来连上每一个网页的超链接。机器人程序根据网页链到其他网页中的超链接,就像日常生活中所说的“一传十,十传百......”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。理论上,若网页上有适当的超链接,机器人便可以遍历绝大部分网页。
2、整理信息分析界面
普通用户看页面,看到的都是文字、图片等直观信息,但是搜索引擎看的是网页的源代码,而且会根据这些源代码来确定网页的重要信息。
在看一个网页时,会发现一些粗体、斜体、加色等形式的汉字,还有一些比较大的字体,有些文字还像标题一样被隔开,这些设置不光让是用户在浏览信息的时候要特别注意,还有一点就是它们可能是网页的重点。
在搜索引擎看来,源代码头部或者靠近头部的信息往往是比其他位置的文字重要,大家可以很形象的将一个网页和一张报纸的页面比较着看。确定重要文字或词语,这是搜索引擎建立网页搜索过程的一个步骤。
搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将他们按照一定的规则进行编排。这样,搜索引擎根本不用重新翻查它所保存的信息就能迅速找到用户所需要的资料。想象一下,如果信息是不按任何规则地随意堆放在搜索引擎的数据库中,那么它每次找资料都得把整个资料库完全翻查一遍,如此一来,再快的计算机系统也没用。
3、接受查询处理关键词
搜索引擎还会根据同义词和潜在语义进行拓展查询检索项。如搜索引擎会将“宠物”和“狗狗”,“藏獒”和“犬”,“人民”和“百姓”当做一个概念进行处理。另外,搜索引擎在查询的时候,还会根据主题来进行归类,如当查询seo的时候,系统会自动将“网络营销”、“搜索引擎优化”、“网站优化”之类的都归为一个主题处理。
当用户使用搜索引擎进行查询的时候,在搜索框中输入一个关键词,当索引中有这样一个完全匹配的结果的时候,就会显示出来。对于英文来说,相对就比较简单了,只要对英文的单复数,时态、词根、组合词等进行分析即可。不过对于中文,则一定要进行分词,然后对关键词进行向量计算,得出哪个网站的哪个关键词的权重比较高,就显示在索引中。
用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接受来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短的时间内找到用户需要的资料,并返回给用户。目前,搜索引擎返回主要是以网页链接的形式提供的,通过这些链接,用户便能到达含有自己所需资料的网页。通常搜索引擎会在链接下来提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己所需要的内容。