预览加载中,请您耐心等待几秒...
1/5
2/5
3/5
4/5
5/5

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

内容分发网络的观察 在网络内容提供商的成本与网络用户的服务质量之间寻找平衡 在网络中,越来越多的内容分发技术成为了优化网络性能的重要组成部分。内容分发网络可以提供最大化的贷款,提高可接入能力,保障内容复制的准确性。利用内容分发网络,把内容分发到各个接近用户的缓存服务器,为用户提供了高速、可靠的网络应用和网络服务。 而且,内容分发网络有多个入网点(PoP),并形成代理服务器,可以在代理服务器上存储相同的内容,使得对于大多数网站来说,能够满足用户请求。一般来讲,CDN的拓扑结构包括以下部分: 一组代理服务器(分布于世界各地),用于缓存原始服务器的内容 路由器和其他网络通信组件,用于把用户内容请求转移到最适合的地点和服务器 一个完备的审计系统,用于为原始服务器提供各种日志和信息记录 使用CDN,原先从客户机到服务器的通信就变成了2种通信流:一部分是客户和代理服务器之间的通信,一部分是代理服务器和原始服务器之间的通信。把内容通信分成了2个部分,就降低了通信拥塞发生(特别是当原始服务器内容很热门的时候),并且提高内容分发的效率和可用性。要维护(全球范围)分发的相同的内容,CDN服务商就必须在实践中把他们的代理服务器有选择性的放在不同的数据中心(根据拥有数据中心的网络提供商性质),才能建立起全球性的内容分发体系架构。在这种配置下,使用CDN的最大好处有: 降低客户(指的是内容服务商)建设全球性分发网络的初期投资成本,降低使用和管理该基础设施的管理运营成本。 绕开网络中的拥塞,这是因为数据日益靠近用户,因此内容就不会在传输时碰到拥塞的主干道和重要节点。 提升内容分发的质量、速度、和可靠性 降低原始服务器的访问压力。 为广大地区和潜在的广大客户(比如整个互联网内)提供内容服务的企业,更愿意使用CDN技术,同时更愿意和CDN服务提供商进行商业合作,在他人的CDN网络上分发自己的内容。CDN技术在互联网中已经使用,但是最大的问题是,CDN的成本依然高昂。侧边栏中就给出目前CDN服务商的列表,以及CDN技术的演化史。 由于CDN技术比较新,并处在飞速发展的阶段,那么就很有必要了解他的价值和缺陷。在【11】中,我们给出了关于CDN体系架构和CDN服务商的综述。那篇综述就是为了弄清楚CDN的基本框架,以及他存在的问题。这里,我们分析了当前实用CDN技术的特性,给出了CDN技术的发展道路,这样有助于大家理解CDN技术当前为什么要如此演化的原因。 实用CDN技术 CDN技术有很多值得探讨的问题,包括代理服务器的放置位置,包括内容是否外包,包括内容外包的技巧。很明显,每个问题的解答,都会带来不同的成本支出,也有自己的缺陷。内容分发网络在实践中的最关键问题如下: 代理服务器的放置:把每个代理服务器放置在最佳位置,对于每个CDN架构来说,都是最重要的。这是因为代理服务器的放置位置直接同内容分发的过程相关。确定代理服务器的放置问题(也叫做webserverreplicaproblem),对于内容外包的效果,对于内容分发的总体处理速度,都至关重要。因此,有效的代理服务器放置方法,可以降低代理服务器的使用数量,降低每个代理服务器上所要存储的内容,同时提升内容分发服务的质量,并降低CDN网络的使用价格。在服务器的放置问题上,提出了很多算法(比如贪婪算法,就是不断增加代理服务器,又比如热点算法,就是把服务器放在访问量最重的地方,此外还有树型算法)。这些算法都给了放置代理服务器的方法,用于提升服务器的性能。根据以前的实验结论,贪婪算法最能够得到最佳的性能。 内容选择:是否把所有内容外包,也成为了内容选择的难题。很明显,把原始服务器上的所有内容对象全部交给代理服务器(就叫做完全复制)最容易。完全复制的好处是处理简单,但是,在现实中这并不可行。因为虽然硬盘的价格一直在下跌,网络中的内容对象也变得越来越大(比如需要的视音频内容)。二期,如果要所有这些庞大的内容进行更新,也变得难以管理。所以,内容选择问题的关键就是找到一种复制网络内容的管理策略。 典型的实践方法是把网络内容根据内容相关度或者访问频率组合在一起,然后根据聚类的内容进行网络对象的复制。从而提出了两种内容聚合算法: 基于用户会话的方式:根据网络分发日志中的统计数据,将用户访问会话的特性统计出来,然后加以内容聚类。根据用户会话进行聚类,能够找到用户相似的浏览模式,,也能找到根据这些浏览模式,URL常常链向的内容。 基于URL的方式:网络内容根据网站拓扑(这样就可把网拓扑看成有向图)聚类,其中网页就是图上的节点,链接就是连线。不断取消不同网页间的连线,就把网页逐渐聚类。在[1]中,作者就通过这个方法分析出一个网站中最重要的网络对象(也叫热点数据),然后根据相关度算法计算不同出URL间的相关度