一:搜索基础信息(奇歪网络)
时间:2010-10-07 来源:奇歪网络
一:抓取
1.蜘蛛以列表的行形式抓取,在之前已经建立列表,对于更改无效的记录更新索引
进行抓取时,搜索会看以前的网站抓取列表网址,还有网站地图,当访问每个网址时
会检测各个网页上的链接,包括(href超级链接和src图片链接)并将这些链接添加到抓取的列表,
蜘蛛会记录新的网站,和网站的更新,和无效链接,并同时更新搜索的索引库
2.搜索对于太多数网站平均访问频率为几秒钟一次,如果网络延迟会有所增加,当某一网站的蜘蛛爬行越来越高的
时候,证明你的网站访问速度有问题,需要你的改善,如果蜘蛛重复的下载同一网页,有可能是蜘蛛停止又重启的
问题。
3.蜘蛛爬行你的网站的时候,服务器有可能就在你的身边,因为用到很多的服务器,而且是你本身的
地域代理爬行你的网站,因为这样可以节约带宽的作用(百度搜索服务器在北京,而你的站在广东,没有理由会跑老
远来抓取你的站,那是不现实的!如果美国呢?非洲呢?自己想了......)
4.robots.txt虽然可以阻止抓取,当网站中出现了,“未找到文件“的情况建议使用404友好页面,
如果要网页中的任意一链接,可用使用nofollow标记,阻止搜索跟踪某个链接
------------------------------------------------------------------------------------------------------------------------------------
二:.编制索引
1.处理关键内容的属性和标记,如TITLE标记或者ALT属性,不会对动态网页和文件处理
------------------------------------------------------------------------------------------------------------------------------------
三:.提供结果
1.用户输入查询,搜索索引查找最为相关的网页,相关性又200多个因素来确认,PR值,只不过其中一项。
其他网页导入链接对某个网页的重要性所衡量,其他网站中指向你网页的各个链接构成你网站的PR(注意其中的网页不是网站)
2.注意:并非所有链接都具有同样的价值,如果是垃圾链接会带来负面的效果
想要有一个好的排名,一定要让你的网站先收录。
3.如果某网站在搜索中有很好的排名,说明这个网站的相关系很高,而且经过搜索的确认才显示出来的,
说到底,还是相关性
--------------------------
本文欢迎转载,不想加任何锚文本或链接!
----------------待续!!!
1.蜘蛛以列表的行形式抓取,在之前已经建立列表,对于更改无效的记录更新索引
进行抓取时,搜索会看以前的网站抓取列表网址,还有网站地图,当访问每个网址时
会检测各个网页上的链接,包括(href超级链接和src图片链接)并将这些链接添加到抓取的列表,
蜘蛛会记录新的网站,和网站的更新,和无效链接,并同时更新搜索的索引库
2.搜索对于太多数网站平均访问频率为几秒钟一次,如果网络延迟会有所增加,当某一网站的蜘蛛爬行越来越高的
时候,证明你的网站访问速度有问题,需要你的改善,如果蜘蛛重复的下载同一网页,有可能是蜘蛛停止又重启的
问题。
3.蜘蛛爬行你的网站的时候,服务器有可能就在你的身边,因为用到很多的服务器,而且是你本身的
地域代理爬行你的网站,因为这样可以节约带宽的作用(百度搜索服务器在北京,而你的站在广东,没有理由会跑老
远来抓取你的站,那是不现实的!如果美国呢?非洲呢?自己想了......)
4.robots.txt虽然可以阻止抓取,当网站中出现了,“未找到文件“的情况建议使用404友好页面,
如果要网页中的任意一链接,可用使用nofollow标记,阻止搜索跟踪某个链接
------------------------------------------------------------------------------------------------------------------------------------
二:.编制索引
1.处理关键内容的属性和标记,如TITLE标记或者ALT属性,不会对动态网页和文件处理
------------------------------------------------------------------------------------------------------------------------------------
三:.提供结果
1.用户输入查询,搜索索引查找最为相关的网页,相关性又200多个因素来确认,PR值,只不过其中一项。
其他网页导入链接对某个网页的重要性所衡量,其他网站中指向你网页的各个链接构成你网站的PR(注意其中的网页不是网站)
2.注意:并非所有链接都具有同样的价值,如果是垃圾链接会带来负面的效果
想要有一个好的排名,一定要让你的网站先收录。
3.如果某网站在搜索中有很好的排名,说明这个网站的相关系很高,而且经过搜索的确认才显示出来的,
说到底,还是相关性
--------------------------
本文欢迎转载,不想加任何锚文本或链接!
----------------待续!!!
相关阅读 更多 +