预览加载中,请您耐心等待几秒...
1/6
2/6
3/6
4/6
5/6
6/6

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

www.binliy.com 先明确一些基本点,一个网页被收录与否,有两个因素 是否被爬虫爬过 页面质量是否过关 上一篇文章“我看看已经提过了收录率这么一个指标,很多网站都懒得去做这个指标, site的!”,数据事实手不就,。从上没行了数据有这中找个指出问标,题很多工作就无从下 利,用数分。析数最《深据指近看》这入浅,据验个本导解了出数证工决方据分作成案析果 觉,把得不数据,建议有错分析。兴趣的方的从法讲事数得很据分生动析的同学可以买本看看 任->何数分析->评估->决策,据分四个析由环节,目组成标。 目标:SEO方我们面是想看否还一下有提网站高的的收机会录情。况如何,在 分析:?网收录站的情况收录什么情况算好是不什么是算坏,是不是用一些指标来衡量 过于笼?统,是不是应该细分下各个页面的收录情况 评估:于是我们需要下面一些数据 网站的页面层级关系 各SEO个层流量级页面带来的 各个层级页面的收录情况如何 www.binliy.com SEO流量的占比可以从GoogleAnalytics中过滤出来。 页面数量可以从数据库获得,或者通过火车头or自制小脚本抓取统计。 收录率可以将获取的页面通过工具进行搜索,火车头也可以。 问题立马凸显! 1+2级目录页带来了大量的流量,收录率不是很好,优化收录的流量提升突破口在此! 产品页面数量很多,收录也不是很理想,但是带来的流量有限,除了收录问题,还有页面内 容的问题,本文中先不管它了。 决策:我们的结论是立刻展开行动对目录页面进行收录的优化。 看到这边,似乎刚开始的目标:“通过优化收录提升流量” 演变成了新的目标:“如何提高目录页面的收录量” 这边能不能再次通过数据分析的方法进行SEO呢? 答案是肯定的! 我们再来重新走一遍目标->分析->评估->决策的过程 目标:提高目录页面的收录量 分析:通过本文开始的有关收录的两个因素,我们需要检查一下,网页是否被爬虫爬行 过,网页的质量是不是过关。 1.关于爬虫的情况,我们需要分析日志,才能确定。于是我们从日志中拆分一系列数 据看看页面是否真的被爬行过。 2.由于页面质量似乎是一个很难衡量的值,于是我们可以用相同模板下的: 已被爬行的页面数量/已被爬行并且被收录页面数量 来评估该模板页面质量对收录的影响大小。如果被爬的页面都被收录了,那至少说明这 www.binliy.com 套页面的内容搜索引擎还算认可。(实际情况远比这个复杂,而且收录后也有可能因为质量 问题被删除,但总比什么参照都没有要好,对吧!) 评估:(敏感信息用编号代替,均为真实数据) 先看一下爬虫日志的情况,通过Shell脚本,我们可以分析出。 目录总计被爬行的次数为13000次左右 不重复的目录爬行次数为5500次左右 频道A下的目录几乎被100%抓取过至少1次,频道B的目录抓取也不错,有70%被至 少抓过一次。 其余频道下的目录被抓取的覆盖率不到30% 不要觉得这个结果很神奇,其实很多网站都会面对这样的糟糕问题,只要你把数据不断的细 分,细分,再细分,总会观察出一些端倪的。 关于日志分析,不要迷信任何的日志分析软件,那都是给懒人用的,自制脚本+Excel 才是王道,可以拆分显示出任何你想要的数据,当然,甚至可以连Excel都不要。 然后,我们统计了一下被抓得最频繁的频道A和频道B,目录页的收录率 www.binliy.com 频道A和B是很让人放心的,说明页面质量没问题,但是余下的收录情况就让人比较担心 了。 决策:通过上面的数据评估,我们已经得到了如下结论。 页面质量并不是影响收录的原因。 频道A,B的抓取量异常的高,通过调查了解,原来是首页上的目录页,显示的全是频 道A下的目录页,首页又拥有全站最高的权重。频道B拥有比其他频道强大的外链资源, 权重也非常高。 除了A,B频道,其他频道的抓取情况不容乐观,抓取入口太少,太深,进而影响了收 录情况。 很明显,现在频道A从站内的角度来说太强大了,必须进行一些“劫富济贫”的运动来 降低频道A的抓取量,转移到其他频道中去。同时,需要给爬虫提供更多的入口抓取频道 页。 现在问题变得清晰起来,我们开始把工作分成两部分:1.提供更多的入口2.将资源平分 给各频道而不是集中在少数几个频道上。 提供入口工作: 1.把目录页的URL制作成sitemap。提交给搜索引擎,并且将其设置为比较高的抓取权 重。 2.完善面包屑导航,将面包屑导航划分得更加细致,以提供更多入口 3.在其他产品中推荐目录页 资源平分工作:(一些概念:任意页面都有可能成为爬虫入口,百度爬虫抓取深度有限, 页面相对入口越浅,被抓取的概率越高。) 1.原先首页指向的都是频道