语义网的发展及其可用工具
扫描二维码
随时随地手机看文章
美国阿尔法股权管理公司(Alpha Eqiuty Mangement)高级国际资产分析师Vince FioramonTI在2001年突然意识到,由于有价值的投资信息在网络上将会越来越多,今后越来越多的厂商将根据信息的重要性和关联性提供可搜集和解译这些信息的软件。
语义网络将成为企业发展的利器
FioramonTI称:“我曾经拥有一支专门为公司搜集和分析金融信息的分析团队。不过,他们的处理速度极为缓慢,得出的结论往往也过于主观,甚至有时会前后矛盾。”
第二年,FioramonTI改用Autonomy集团的语义平台——智能数据操作层(IDOL)来自动处理各种形式的数字化信息。他们在部署中遇到了一个障碍:IDOL仅提供了常用的语义算法。FioramonTI称,阿尔法股权管理公司为此不得不组建了一个由程序员和金融分析师组成的团队,专门研发适用于金融学的算法和元数据。由于耗资过于巨大,公司最后放弃了这一项目。
阿尔法股权管理公司在2008年迎来了新的契机,当时他们参加了汤森路透的机器可读新闻(Machine Readable News)服务。该服务可从3000多名路透社记者,以及网络报纸和博客等第三方资源那里收集、分析网络新闻。然后,根据影响力(如果公众对公司或产品的印象)、关联性和新颖性,对这些材料进行分析和评分。
这些结果会源源不断的提供给客户,包括公共关系和营销人员、使用自动化“黑匣子交易(black box trading)”系统的股票交易商、为长期投资决策收集整理数据的基金经理。
Fioramonti称该服务每月收费并不便宜。据估计,实时数据更新的成本每月在15000至50000英镑之间。不过,对于阿尔法股权管理公司来说,该服务确实物有所值。他称,这些信息不仅帮助提升了公司的资产收益,还帮助公司击败了许多竞争对手。
阿尔法股权管理公司的经历并不是唯一的案例。无论公司决定建造一个类似的内部系统,还是决定雇用服务提供商,通常都要花费巨资才能利用语义网技术。如果所搜索和分析的信息包括有针对特定商业领域的行话、概念和缩略语信息,那么同样可以实现。
以下我们将为大家介绍一下那些能够帮助进行商业部署和利用语义网基础的工具,以及要想发挥这一技术的潜能还需要哪些东西。
关键标准
根据Tim Berners-Lee提出的概念,语义网的核心是联合搜索(Federated Search)。其可搜索引擎、代理或应用询问网络上成千上万个信息源,发现并在语义上分析相关内容,准确检索用户寻找的产品、答案或信息。
尽管联合搜索正逐渐流行起来,特别是出现在了Windows 7上,但是要在整个网络上广泛普及还有很长的路要走。
为了有效的推动联合搜索,万维网联盟(W3C)制定了几个关键标准,定义了基本的语义基础设施。它们包括:
•简单协议与RDF 查询语言(SPARQL),其定义了用于查询和访问数据的标准语言。
•资源描述框架(RDF)和RDF模式(RDFS),其规范了在语义本体(又称为词汇表)中如何陈述和组织信息。
•网络本体语言(OWL),其对本体论和部分RDFS原理进行了详细陈述。
目前这些标准的最终定稿已经得到了Cambridge Semantics、Expert System、Revelytix、Endeca、Lexalytics、Autonomy 和Topquadrant等主要语义网平台厂商的支持。
谷歌、雅虎和微软必应等主要网络搜索引擎已经开始使用语义元数据区分搜索结果,并开始支持RDF等W3C标准。
如今甲骨文、企业软件厂商和IBM也加入到语义网的研发中,并分别推出了甲骨文Database 11g 语义技术、SAS 本体管理工具和IBM InfoSphere BigInsights工具。
W3C标准的推出目的是解决不同机构在组织、描述、呈现信息中的不一致性,为跨域语义查询和联合搜索铺平道路。
本体管理工具制造商Revelytix的首席执行官Michael Lang为我们描述了使用W3C标准的好处。他称,如果200家网上家用电子产品销售商使用诸如RDF的语义网标准描述他们产品库,Revelytix的软件则可以让这些信息通过SPARQL查询方式被访问。网络商家可以使用兼容W3C标准的浏览器工具在不同网站搜索产品,如通过输入“根据价格排列并显示所有42-52英寸平板电视”进行查询。
搜索引擎和一些第三方网络购物网站可提供产品对比,不过这些对比仅限于所搜索到的结果的属性。购物者经常发现由第三方所提供数据已经过时,甚至不正确,如无法准确提供有效的尺寸和颜色信息。基于标准的跨网站查询可为购物者提供由商家自己提供的更为丰富的对比信息和更新的介绍信息。
W3C SPARQL工作组联合组长Lee Feigenbaum 称,W3C SPARQL工作组目前正在研发SPARQL服务描述,旨在标准化SPARQL“终端”或信息源提供数据的方式,特别是详细规定了如何描述数据的类型和数量。
模块和软件工具
工具、平台、预置组件和服务均可有效缩短部署时间,降低技术复杂性,减少成本。
Jena为开发语义网应用的开源Java架构,其包括有RDF、RDFS和OWL的API,一个SPARQL查询引擎和一个推理引擎。Sesame为存储、推理和查询RDF数据的开源架构。
主流语义网平台都带有用于描述常用术语、概念、缩略语的“知识库”,让用户在使用时创建本体知识库。Lexalytics产品管理副总裁Seth Redmore称:“客户的需求往往相互矛盾:让平台能够反馈精确信息,对这些信息进行整编让其更适合自己的业务。”
为了解决这一矛盾,Lexalytics选择将他们的语义平台主要销售给服务提供商,由服务提供商再对特定商业领域和应用进行微调。汤森路透的机器可读新闻服务就是一个很好的例子。
部分平台厂商推出了专门针对商业的解决方案。比如,Endeca推出了用于电子商务和企业语义应用的应用开发工具包。
此外,还有一些可以自动将语义元数据和W3C标准整合到现有信息库中的工具。据Lang称,Revelytix的Spyder工具可自动将结构化和非结构化数据转换成RDF。作为能够被兼容SPARQL的浏览器访问的SPARQL终端,其可在网页上显示这些信息。
名为D2RQ的开源工具可以将所选择的数据库映射到RDF和OWL本体知识库中,让兼容SPARQL的应用访问这些数据,
Revelytix还推出了名为Knoodl.com的兼容W3C的知识库模块。该模块为基于维基的架构,主要是帮助技术专家和商业用户共同开发一个语义词汇表,描述和引导不同网站中的特殊信息。Lang称,相关社区可以通过Knoodl.com访问、共享和挑选有关的信息。
咨询公司Dachis集团欧洲业务部主管Lee Bryant称,他们开发了一个名为Social Business Design的架构,该架构的目的是帮助用户协作、分享想法,然后限制和明确某一商业机构或是社区中的数据含义。
上述这些产品都可以大幅减轻语义基础设施的研发任务。如,布依格建筑集团电子服务与知识管理总监Eric Juin称,他们通过Sinequa的语义平台Context Engine,在六个月的时间内就建立起了一个初具规模的语义系统。
Juin称,布依格建筑集团已经开发出了一个语义搜索应用,其可帮助员工迅速内部系统和外部互联网中的信息。他称,Context Engine可以从会议纪要、产品说明书、培训材料和项目文档等海量文件中查找到要找的相关的人员和概念。该平台包括了一个收录有常用词汇和术语的“通用语义学词典”,并且可在多种语言之间转换。如法国雇员能够在德语文件中进行语义搜索。
此外,特殊的商业缩略词和术语还可以手动添加,不过这需要语义专家和商业用户共同完成。Juin称,由于语义引擎能够使用其它相关词汇确定针对特殊主题的术语,因此他的团队只添加了很少一部分关键词的定义。
选择SaaS
对于那些缺乏内部资源建立自己的语义网基础设施的公司来说,他们可以像阿尔法股权管理公司那样选择由第三方提供语义服务。
服务提供商汤森路透除了提供机器可读新闻服务外,还提供名为OpenCalais的服务。该服务可为客户提交的内容创建语义元数据。据汤森路透副总裁Thomas Tague称,客户可为搜索、新闻聚合、博客、目录和应用部署经标记的内容。
OpenCalais包括一个免费的工具包,用户可创建自己的语义基础设施和元数据,与其他网络提供商建立链接。Tague称,该服务目前每天处理超过500万份文档。
DNA13、Lithium技术和Cymfony均为语义服务提供商,提供查询、收集和分析网络新闻、社交媒体,为用户在品牌、信誉管理、客户关系管理和市场营销等领域提供帮助。