飞飞电影系统

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 972|回复: 1

搜索引擎抓取流程是如何运行的

[复制链接]
  • TA的每日心情
    开心
    2014-3-30 19:26
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    9

    主题

    39

    帖子

    1540

    积分

    高级会员

    Rank: 5Rank: 5

    积分
    1540
    发表于 2014-3-4 19:55:29 | 显示全部楼层 |阅读模式
      第一步:搜索引擎抓取互联网的网页。
      我们把搜索引擎抓取网页的程序叫做“蜘蛛”或者“机器人”,“百度蜘蛛”和“google机器人”就是指的百度、谷歌的爬取程序。
      搜索引擎蜘蛛会按照你的URL进行爬取。当搜索蜘蛛爬取一个网页的时候如果看到一个新的URL就会顺着这个URL爬下去。他会把爬取的内容返回到搜索引擎的索引数据库。
      蜘蛛的主要作用就是爬取,蜘蛛爬取的是网站程序的代码,而不是我们大多数人认为的网页内容。
      第二步:程序爬取的内容返回到索引数据库。
      索引数据库对网页信息进行处理(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等)。网页分析之后,会对网页进行评价。如果是网上重复度太多的内容,索引数据库则舍弃这个网页。这就是平时我们遇到自己的文章被搜索引擎收录了很多,但是过一段时间后,有降低的原因之一。
      每个被收录的网站都会在搜索引擎的索引数据库中有相应的储存,我们在可以直接看到的就是百度快照(谷歌cached)。搜索引擎是按照他的索引数据库上的信息对网站进行排序的。索引数据库中还包含每个网站的导入链接,导出链接等信息。
      第三步:索引数据库中排序。
    电影站专用国内服务器188/月,国内双线空间香港空间联系QQ613366207[/c
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|Archiver|手机版|飞飞CMS |网站地图

    GMT+8, 2024-5-5 18:58 , Processed in 0.093459 second(s), 27 queries .

    Powered by Discuz! X3.4

    Copyright © 2001-2021, Tencent Cloud.

    快速回复 返回顶部 返回列表