p2p技术的原理及发展前景
扫描二维码
随时随地手机看文章
P2P技术原理
P2P技术属于覆盖层网络(Overlay Network)的范畴,是相对于客户机/服务器(C/S)模式来说的一种网络信息交换方式。在C/S模式中,数据的分发采用专门的服务器,多个客户端都从此服务器获取数据。这种模式的优点是:数据的一致性容易控制,系统也容易管理。但是此种模式的缺点是:因为服务器的个数只有一个(即便有多个也非常有限),系统容易出现单一失效点;单一服务器面对众多的客户端,由于CPU能力、内存大小、网络带宽的限制,可同时服务的客户端非常有限,可扩展性差。P2P技术正是为了解决这些问题而提出来的一种对等网络结构。在P2P网络中,每个节点既可以从其他节点得到服务,也可以向其他节点提供服务。这样,庞大的终端资源被利用起来,一举解决了C/S模式中的两个弊端。
对等网络的基本结构
(1)集中式对等网络(Napster、QQ)
集中式对等网络基于中央目录服务器,为网络中各节目提供目录查询服务,传输内容无需再经过中央服务器。这种网络,结构比较简单,中央服务器的负担大大降低。但由于仍存在中央节点,容易形成传输瓶颈,扩展性也比较差,不适合大型网络。但由于目录集中管理,对于小型网络的管理和控制上倒是一种可选择方案。
(2)无结构分布式网络(Gnutella)
无结构分布式网络与集中式的最显著区别在于,它没有中央服务器,所有结点通过与相邻节点间的通信,接入整个网络。在无结构的网络中,节点采用一种查询包的机制来搜索需要的资源。具体的方式为,某节点将包含查询内容的查询包发送到与之相邻的节点,该查询包以扩散的方式在网络中蔓延,由于这样的方式如果不加节制,会造成消息泛滥,因此一般会设置一个适当的生存时间(TTL),在查询的过程中递减,当TTL值为0时,将不再继续发送。
这种无结构的方式,组织方式比较松散,节点的加入与离开比较自由,当查询热门内容时,很容易就能找到,但如果需求的内容比较冷门,较小的TTL不容易找到,而较大的TTL值又容易引起较大的查询流量,尤其当网络范围扩展到一定规模时,即使限制的TTL值较小,仍然会引起流量的剧增。但当网络中存在一些拥有丰富资源的所谓的类服务器节点时,可显著提高查询的效率。
(3)结构化分布式网络(第三代P2P Pastry、Tapestry、Chord、CAN)
结构化分布式网络,是近几年基于分布式哈希表(Distributed Hash Table)技术的研究成果。它的基本思想是将网络中所有的资源整理成一张巨大的表,表内包含资源的关键字和所存放结点的地址,然后将这张表分割后分别存储到网络中的每一结点中去。当用户在网络中搜索相应的资源时,它将能发现存储与关键词对应的哈希表内容所存放的结点,在该结点中存储了包含所需资源的结点地址,然后发起搜索的结点根据这些地址信息,与对应结点连接并传输资源。这是一种技术上比较先进的对等网络,它具有高度结构化,高可扩展性,结点的加入与离开比较自由。这种方式适合比较大型的网络。
P2P网络有3种比较流行的组织结构,被应用在不同的P2P应用中。
(1)DHT结构
分布式哈希表(DHT)[1]是一种功能强大的工具,它的提出引起了学术界一股研究DHT的热潮。虽然DHT具有各种各样的实现方式,但是具有共同的特征,即都是一个环行拓扑结构,在这个结构里每个节点具有一个唯一的节点标识(ID),节点ID是一个128位的哈希值。每个节点都在路由表里保存了其他前驱、后继节点的ID。如图1(a)所示。通过这些路由信息,可以方便地找到其他节点。这种结构多用于文件共享和作为底层结构用于流媒体传输[2]。
(2)树形结构
P2P网络树形结构如图1(b)所示。在这种结构中,所有的节点都被组织在一棵树中,树根只有子节点,树叶只有父节点,其他节点既有子节点也有父节点。信息的流向沿着树枝流动。最初的树形结构多用于P2P流媒体直播[3-4]。
(3)网状结构
网状结构如图1(c)所示,又叫无结构。顾名思义,这种结构中,所有的节点无规则地连在一起,没有稳定的关系,没有父子关系。网状结构[5]为P2P提供了最大的容忍性、动态适应性,在流媒体直播和点播应用中取得了极大的成功。当网络变得很大时,常常会引入超级节点的概念,超级节点可以和任何一种以上结构结合起来组成新的结构,如KaZaA[6]。
P2P技术应用
(1)分布式科学计算
P2P技术可以使得众多终端的CPU资源联合起来,服务于一个共同的计算。这种计算一般是计算量巨大、数据极多、耗时很长的科学计算。在每次计算过程中,任务(包括逻辑与数据等)被划分成多个片,被分配到参与科学计算的P2P节点机器上。在不影响原有计算机使用的前提下,人们利用分散的CPU资源完成计算任务,并将结果返回给一个或多个服务器,将众多结果进行整合,以得到最终结果。
(2)文件共享
BitTorrent是一种无结构的网络协议。除了BitTorrent之外,还有不少著名的无结构化的P2P文件共享协议,典型的有Gnutella[8]和KaZaA[6]。
(3)流媒体直播
(4)流媒体点播
(5)IP层语音通信
Skype采取类似KaZaA的拓扑结构,在网络中选取一些超级节点。在通信双方直连效果不好时,一些合适的超级节点则担当起其中转节点的角色,为通信双方创建中转连接,并转发相应的语音通信包。
典型P2P应用的机制分析
3.1BitTorrent
BitTorrent软件用户首先从Web服务器上获得下载文件的种子文件,种子文件中包含下载文件名及数据部分的哈希值,还包含一个或者多个的索引(Tracker)服务器地址。它的工作过程如下:客户端向索引服务器发一个超文本传输协议(HTTP)的GET请求,并把它自己的私有信息和下载文件的哈希值放在GET的参数中;索引服务器根据请求的哈希值查找内部的数据字典,随机地返回正在下载该文件的一组节点,客户端连接这些节点,下载需要的文件片段。因此可以将索引服务器的文件下载过程简单地分成两个部分:与索引服务器通信的HTTP,与其他客户端通信并传输数据的协议,我们称为BitTorrent对等协议。BitTorrent软件的工作原理如图 4所示。BitTorrent协议也处在不断变化中,可以通过数据报协议(UDP)和DHT的方法获得可用的传输节点信息,而不是仅仅通过原有的 HTTP,这种方法使得BitTorrent应用更加灵活,提高BitTorrent用户的下载体验。
3.2eMule
eMule软件基于eDonkey协议改进后的协议,同时兼容eDonkey协议。每个eMule客户端都预先设置好了一个服务器列表和一个本地共享文件列表,客户端通过TCP连接到eMule服务器进行登录,得到想要的文件的信息以及可用的客户端的信息。一个客户端可以从多个其他的EMule客户端下载同一个文件,并从不同的客户端取得不同的数据片段。eMule同时扩展了eDonkey的能力,允许客户端之间互相交换关于服务器、其他客户端和文件的信息。eMule服务器不保存任何文件,它只是文件位置信息的中心索引。eMule客户端一启动就会自动使用传输控制协议 (TCP)连接到eMule服务器上。服务器给客户端提供一个客户端标识(ID),它仅在客户端服务器连接的生命周期内有效。连接建立后,客户端把其共享的文件列表发送给服务器。服务器将这个列表保存在内部数据库内。eMule客户端也会发送请求下载列表。连接建立以后,eMule服务器给客户端返回一个列表,包括哪些客户端可以提供请求文件的下载。然后,客户端再和它们主动建立连接下载文件。图5所示为eMule的工作原理。
eMule基本原理与BitTorrent类似,客户端通过索引服务器获得文件下载信息。eMule同时允许客户端之间传递服务器信息,BitTorrent只能通过索引服务器或者DHT获得。eMule共享的是整个文件目录,而BitTorrent只共享下载任务,这使得 BitTorrent更适合分发热门文件,eMule倾向于一般热门文件的下载。
3.3迅雷
迅雷是一款新型的基于多资源多线程技术的下载软件,迅雷拥有比目前用户常用的下载软件快7~10倍的下载速度。迅雷的技术主要分成两个部分,一部分是对现有Internet下载资源的搜索和整合,将现有Internet上的下载资源进行校验,将相同校验值的统一资源定位(URL)信息进行聚合。当用户点击某个下载连接时,迅雷服务器按照一定的策略返回该URL信息所在聚合的子集,并将该用户的信息返回给迅雷服务器。另一部分是迅雷客户端通过多资源多线程下载所需要的文件,提高下载速率。迅雷高速稳定下载的根本原因在于同时整合多个稳定服务器的资源实现多资源多线程的数据传输。多资源多线程技术使得迅雷在不降低用户体验的前提下,对服务器资源进行均衡,有效降低了服务器负载。
每个用户在网上下载的文件都会在迅雷的服务器中进行数据记录,如有其他用户再下载同样的文件,迅雷的服务器会在它的数据库中搜索曾经下载过这些文件的用户,服务器再连接这些用户,通过用户已下载文件中的记录进行判断,如用户下载文件中仍存在此文件(文件如改名或改变保存位置则无效),用户将在不知不觉中扮演下载中间服务角色,上传文件。
3.4PPLive
PPLive软件的工作机制和BitTorrent十分类似,PPLive将视频文件分成大小相等的片段,第三方提供播放的视频源,用户启矾PPLive 以后,从PPLive服务器获得频道的列表,用户点击感兴趣的频道,然后从其他节点获得数据文件,使用流媒体实时传输协议(RTP)和实时传输控制协议 (RTCP)进行数据的传输和控制。将数据下载到本地主机后,开放本地端口作为视频服务器,PPLive的客户端播放器连接此端口,任何同一个局域网内的用户都可以通过连接这个地址收看到点播的节目。图6所示为PPLive的工作原理示意图。
3.5Skype
Skype是网络语音沟通工具。它可以提供免费高清晰的语音对话,也可以用来拨打国内国际长途,还具备即时通讯所需的其他功能,比如文件传输、文字聊天等。Skype是在KaZaA的基础上开发的,就像KaZaA一样,Skype本身也是基于覆盖层的P2P网络,在它里面有两种类型的节点:普通节点和超级节点。普通节点是能传输语音和消息的一个功能实体;超级节点则类似于普通节点的网络网关,所有的普通节点必须与超级节点连接,并向Skype的登陆服务器注册它自己来加入Skype网络。Skype的登陆服务器上存有用户名和密码,并且授权特定的用户加入Skype网络,图7所示为Skype的体系结构 [18]。
Skype的另一个突出特点就是能够穿越地址转换设备和防火墙。Skype能够在最小传输带宽32 kb/s的网络上提供高质量的语音。Skype是使用P2P语音服务的代表。由于其具有超清晰语音质量、极强的穿透防火墙能力、免费多方通话以及高保密性等优点,成为互联网上使用最多的P2P应用之一。
P2P运营模式
目前主要P2P业务的运营模式主要有以下几种:
(1)Skype模式
Skype是互联网上最流行的P2P VoIP系统。目前Skype采取的模式是基本服务免费(如网内话音通话),而增值服务收费,收费的服务包括:
SkypeOut:通过Skype软件呼叫固网或移动网电话。
SkypeIn:为用户提供一个真实的电话号码,用户可在世界上任何地方通过该号码接听电话。
SkypeZone服务:全球18000个无线局域网(WLAN)热点,使用电脑或WLAN电话接入。
增值应用服务:语音邮箱、Skype话机、铃声/图片下载等。
(2)广告模式
这是P2P服务采用的最为广泛的赢利模式,也是互联网业务的主要赢利模式。从早期的Napster,到最近比较流行的P2P流媒体业务,如PPlive、UUsee等,都主要采用这种模式,至少是以这种模式为主。
由于P2P应用系统对于服务端的资源需求较少,整个P2P运营系统的成本较低,因此,这种模式在相当一段时间内是主流的赢利模式。
(3)Popular Power和Data Synapse模式
Popular Power[1]公司大量收集处于工作间隙的PC的闲置计算能力,通过集群技术产生超级计算能力,供高强度计算工作和大型研究项目使用。在Popular Power的模式中,用户被要求在他们的PC上安装一个特制的屏幕保护程序。当屏保运行时,Popular Power就会向这些用户的PC分配工作负载。用户每月将收到一定数额的报酬作为对他们的闲置计算资源的使用费。我们可以把Popular Power模式称为“商贩模式”——通过贩卖个人计算机的闲置资源来获取利润。
DataSynapse公司赢利的方法是“网格计算”,它把成千上万台计算机连接起来,利用它们的闲散资源组成一个虚拟的超级计算机。表面上看,DataSynapse模式和Popular Power模式并没有什么不同——都是在贩卖空闲的计算机资源。但是DataSynapse将“网格计算”构建在合作企业之间的内部网 (Intranet)上,而不是互联网(Internet)上。这样,一方面,可以解决互联网的带宽狭窄、安全性较差的问题;另一方面把目标用户定位在企业用户中,有较大的赢利把握。
(4)Lightshare模式
Lightshare的赢利方法是在P2P网络上开展电子商务。用户可以在P2P网络上购买或出售商品。用户可以搜寻待售商品信息或者列出自己欲售商品的信息。待售的商品保留在出售者的计算机里,但中心服务器上动态地保存该商品的相关信息,以供其他用户查询。在Lightshare开展的服务中,初期的交易商品只包括数字文件,但是以后将逐渐扩展到其他领域。这种赢利模式目前存在着管理、计费、安全等方面的困难。
现有P2P技术主要涉及的领域和发展方向
(1)提供文件和其它内容共享的P2P网络,例如Napster、Gnotella、Freenet、CAN、eDonkey、eMule、BitTorrent等。
(2)基于P2P方式的协同处理与服务共享平台,例如JXTA、Magi、Groove、.NETMy Service等。
(3)即时通讯交流,包括ICQ、OICQ、Yahoo Messenger等。
(4)安全的P2P通讯与信息共享,利用P2P无中心的特性可以为隐私保护和匿名通讯提供新的技术手段。例如CliqueNet、Crowds、Onion RouTIng等。
(5)语音与流媒体:由于P2P技术的使用,大量的用户同时访问流媒体服务器,也不会造成服务器因负载过重而瘫痪。例如Skype、Coolstream、AnyChat等。
(6)网格计算,挖掘P2P分布计算能力。使用P2P技术以集中那些联接在网络上的电脑的空闲的CPU时间片断、内存空间、硬盘空间来替代“超级计算机”。例如SETI@home、Avaki、Popular Power、distributed.net等。网格计算的宗旨是:将遍布全球的数以万计的计算节点通过高速Internet连接并组织成一个巨系统,使其能够透明、高效地完成复杂计算任务。
(7)IBM、微软、Ariba也在合作开展一个名为UDDI的项目以将B2B电子商务标准化
(8)Eazel正在建立下一代的Linux桌面。
(9)Jabber已经开发了一种基于XML、开放的即时讯息标准,Jabber被认为是建立了未来使用P2P数据交换的标准。
(10)Lotus Notes的开发者创建的Groove试图“帮助人们以全新的方式沟通”。
(11)英特尔也在推广它的P2P技术以帮助更有效地使用芯片的计算能力。
(三) P2P资源定位方式
P2P网络中进行资源定位是首先要解决问题。一般采用三种方式:
(1)集中方式索引
每一个节点将自身能够提供共享的内容注册到一个或几个集中式的目录服务器中。查找资源时首先通过服务器定位,然后两个节点之间再直接通讯。例如早期的Napster。这类网络实现简单,但往往需要大的目录服务器的支持,并且系统的健壮性不好。
(2)广播方式
没有任何索引信息,内容提交与内容查找都通过相邻接节点直接广播传递。例如Gnutella。一般情况下,采取这种方式的P2P网络对参与节点的带宽要求比较高。
(3)动态哈希表的方式
上述两种定位方式可以依据不同的P2P应用环境进行选择,但是人们普遍看好DHT(Distributed Hash Table,分散式杂凑表)方式。基于DHT的P2P网络在一定程度上可以直接实现内容的定位。一个矛盾的问题是:如果一个节点提供共享的内容表示越复杂,则哈希函数越不好选择;相应的,网络的拓扑结构就越复杂。而如果内容表示简单,则又达不到真正实现依据内容定位的能力。目前大多数DHT方式的P2P网络对节点所提供共享内容的表示都很简单,一般仅仅为文件名。