网站首页 >> SEO百科 >> 正文
标题

搜索引擎快速排名原理(搜索引擎的高级搜索技巧)

墨雨婷   01月10日 07:56   0
内容

搜索引擎原理系列教程之「收录」「索引」「排名」

《搜索引擎原理系列教程》这个虽然称不上书籍,但由于里面信息量以及内容比较实用,也弥补了百度白皮书的一些短板——话语浮于表面,另外值得鼓励的是,这个教程完全是由一个民间的SEO爱好者总结,这份精神值得称赞。我这里仍然想讲三个方面,也是我们SEOER比较关心的三个方面:收录、索引、排名。

搜索引擎快速排名原理(搜索引擎的高级搜索技巧)

一、收录

搜索引擎搜集网页过程,收录其实是个复杂的过程,他简单的分为这四个步骤:

1、 调度器是整个搜集过程的核心,它内部保存有一个已访问URL库和未访问URL库,统称URL库。一开始调度器会从未访问URL库中取出一条URL,分配给蜘蛛,让蜘蛛去抓取未抓取过的URL。

2、 当一个蜘蛛得到URL的时候,它会向返个URL发出请求抓取,流程是:对该URL对应的域名进行DNS解析->得到IP进行Socket连接->连接成功发出http请求->接收网页信息。

3、 蜘蛛得到网页信息后,会返回源代码给调度器,调度器会将源代码保存到网页数据库中。

4、 调度器会对抓取到网页迕行链接提取,将未抓取过的URL存放到未访问URL库中,并将刚刚抓取完的URL更新到已抓取URL库中。

这其中会涉及到去重

调度器的工作流程

1、从未访问URL表中依次取出URL,分配给各个蜘蛛。

2、蜘蛛得到URL,进行抓取,得到网页的源代码,对该源代码进行URL的提取,获得该网页包含的所有URL。

3、调度器依次查看得到的URL是否在已访问URL库中存在。如果存在,则说明已经被抓取过,那么将该URL丢弃;如果不存在,说明这个URL没有被抓取过,则顺序添加到未访问URL表中,等待之后抓取。

4、重复步骤1,直到未访问表为空。

搜索引擎快速排名原理(搜索引擎的高级搜索技巧)

二、索引

网页预处理

1、给原始网页建立索引。

2、针对搜索有网页库进行网页切分,将每一个页面转化为一组词的集合。(正向索引)

3、将网页到索引词的映射转换为索引词到网页的映射,形成倒排文件(包括倒排表和索引词表)

总的来说,搜索引擎从网页数据库获取网页然后进行代码过滤,然后提取正文信息后进行切词,之后的步骤就是对关键词集合进行筛选,得到网页关键词正向索引,最后才将搜索引擎将正向索引转换未关键词到网页的倒排索引,正是这个技术,搜索引擎才有可能在1S内给用户呈现搜索结果。

另外,这其中搜索引擎做的动作就是网页净化和消重,除了去除网页内噪音内容(如广告、版权等),提取网页主题和相关内容外,去除网页集合中内容重复内容。

有同学可能会问,搜索引擎如何识别主体内容的呢?事实上,算法是靠建立HTML标签树和投票方法识别正文文本。

比如,我们定一下规则,

1、如果文本块文本长度少于10个字,0分。介于10~50个字得5分。介于50~250个字,得8分。超过250个字,得10分。

2、文本块文本位置在右侧,得0分。在顶部,得3分。在左侧,得5分。在中部,得10分。

那我们就得出,页面TITLE得分9,正文加粗H1标签得分8等等,DIV部分的AD部分得分0,丢弃。

(以上举例只为了参考,跟实际算法没有关联)

搜索引擎进行网页消重都要经过3个步骤,首先是特征抽取(这其中涉及到I-Match算法、Shingle算法),然后相似度计算、评价是否相似,最后才是消重。

事实上,搜索引擎算法和用户交互的过程就是一个查询的流程,比如用户搜索“搜索引擎原理”,算法分词后得到“搜索引擎”,“原理”,在倒排索引表中找到包含这两个文档列表,求交,然后将用户查询以及上一步找到文档列表中被一条记录进行向量化后,求查询向量和文档向量的相似度,然后从高到底排序,最后就是我们看到的最终搜索结果。

三、排名

最后就举个例子作为结尾:

搜索引擎网页权重=网页中词项基本权重+链接权重+用户评价权重

网页中词项基本权重

1、例如某个关键词”搜索引擎”在<h1><b>搜索引擎</b></h1>的环境下,权重应该为:WBT=W+W, (h1)+W,(b)=10+12+4=26

2、关键词“搜索引擎”可能还在文档中其他地方出现n次,每次出现都可以计算一个WBT1、WBT2、WBT3…WBTn,那么可以计算出整个文档“搜索引擎”这个关键词的权重为︰

wBT(关键词,网页)=WBT,+ WBT,+…+WBTT=>wBT

搜索引擎快速排名原理(搜索引擎的高级搜索技巧)

相关排序–链接权值的计算

搜索引擎快速排名原理(搜索引擎的高级搜索技巧)

相关排序–用户评价权值的计算

搜索引擎快速排名原理(搜索引擎的高级搜索技巧)

….

最终权值的计算

搜索引擎快速排名原理(搜索引擎的高级搜索技巧)

搜索引擎可以通过配置KWB、KWL、KWU来设置侧重哪些因素影响权重,比如如果搜索引擎设置了KWL为0.8,KWB、KWU均为0.1,那么说明该搜索引擎更侧重链接对权重的影响,通过这样的算法,可以很轻松的算法上的调整。

搜索引擎排名原理5步骤打破认知

现在人人一部智能手机,我几乎每天都会用到网络搜索。可以说,随时都能通过搜索获得想要的信息。

当我们在网上搜索的时候,我们是正在通过搜索引擎查找整个互联网上的信息吗?

如果是这样的,我们每搜索一次,搜索引擎就在网上找到一大圈,那将要花费很长的时间。

我们来了解一下搜索引擎的工作原理,你需要掌握好这几个关键词:

  1. 蜘蛛
  2. 收录
  3. 快照
  4. 索引
  5. 排名

这些是以后做SEO经常要用到的数据。懂了这几个词的意思,就知道了搜素引擎的工作原理。

我们之所以在弹指之间,就能在看到我们查询的相关信息,是因为我们搜索到的信息存放在搜索引擎服务器上的索引数据库里,这里面存放着无数的,我们可能需要的信息。

搜索引擎会根据网页的内容,用独有的算法进行评分,依次排序,并存放在索引数据库中,当我们在搜索的时候,它就能瞬间把最匹配关键词的信息优先展示给我们。

你想要知道搜素引擎的原理,这就要从搜索引擎开始信息爬取,收录,快照,索引,排名开始说起。

01

蜘蛛

从SEO角度来讲,一个新的网站上线,想要你的网站能在搜索引擎看到,首先要把网站推送给搜索引擎。比如,百度、搜狗、好搜等平台,给网站引蜘蛛来爬取信息。

搜索引擎的在互联网上采集信息的软件,我们一般都称为,“蜘蛛”程序,它能爬取整个互联网上公开的网站,并能从网站上每个页面的链接,爬取到另外一个页面的链接。

以此类推,从这个网站爬取到另外一个网站,不断地采集网页信息,还会根据网站的更新频次,定期回访,持续爬取内容。所以,网站上线,就要引蜘蛛来爬取你的网站。这就是搜索引擎的蜘蛛程序。

02

收录

蜘蛛程序会把爬取到的信息过滤一遍,把符合搜索引擎规则的信息存储在自己的数据库中,我们可以用site指令查看网站的收录量,这就是网站收录。这个指令我在前面的课里已经讲过了,大家课后可以多用用。

03

快照

我们在搜索的时候可以看到,每个网站的网址后面都有一个百度快照的链接。这是蜘蛛在爬取网页的时候给这个页面拍了照片,并以文本的形式备份在自己的数据库中,搜索平台给用户的结果中,除了商业广告,自然排名都是以百度快照的形式展示出来。这个备份过的页面叫做“百度快照”。



04

索引

网站有了快照,就能被优先搜索出来吗?不一定。有了收录,仅仅是搜索引擎筛选符合收录规则的第一步,接下来搜索引擎还要对页面进行层层筛选,涉及到大量的排名因素。

搜索引擎会过滤掉重复和低质量的信息,把网站中所有优质的页面作为搜索的候选结果,保存在索引数据库中,索引数据库的信息就是参与排名的信息,这就是一个网站的索引量。一个网站的准确索引量可以在站长平台查询,后面的课程中,我会详细讲解工具的使用。

05

排名

搜索引擎如何判断哪些信息是用户最想要的呢?这就要涉及到网站内部和外部的seo。

如:页面关键词的布局,关键词在标题中的写法、页面内容和关键词的相关性、外部链接的权重、内容是否原创、来源是否是优质的网站、以及过去这个页面用户的浏览数据等等信息。

最终通过算法的综合评分,把符合用户需求的内容优先排列出来,这是搜索引擎的排名机制。

这是SEO课程中的其中一节课的内容。这次录制课程选什么课程,我想了很久,最近定下来,不是当下最热门的类型,而是SEO课。为什么呢?

因为学了SEO,就能服务商家和企业家,这些创业者比普通人更会用钱,更愿意为营销推广投资费用。而SEO本身是一种低成本网络营销推广的方法。企业家和创业者更愿意为此买单。

所以,只需要学习了SEO课程的人,都能通过线上或者线下通过SEO为企业和创业者提供服务。可以说,你只要学会SEO,就能马上靠这个技能赚到钱。同时,你还可以把SEO技术和你现有的项目结合来做,放大你的创业项目,使业绩倍增。

好了,搜索引擎通过,爬取、收录、快照、索引、排名,这些就是搜索引擎的工作原理。

搜索引擎快速排名原理(搜索引擎的高级搜索技巧)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 lkba@aliyun.com 举报,一经查实,本站将立刻删除。

转载请注明来自专注SEO技术,教程,推广 ,本文标题:《搜索引擎快速排名原理(搜索引擎的高级搜索技巧)》

标签:搜索引擎排名

点评

本文暂无评论 - 欢迎您