语义网基础教程

语义网基础教程

ID:30921979

大小:79.50 KB

页数:9页

时间:2019-01-04

语义网基础教程_第1页
语义网基础教程_第2页
语义网基础教程_第3页
语义网基础教程_第4页
语义网基础教程_第5页
资源描述:

《语义网基础教程》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、第一章概述1.1万维网现状万维网改变了人类彼此交流的方式和商业创作的方式。发达社会正在向知识经济和知识社会转型,而万维网处于这场革命的核心位置。这种发展使得人们对计算机的看法也发生了变化。起初,计算机仅仅用作数值计算,而现在则主要用于信息处理,典型的应用包括数据库,文档处理和游戏等等。眼下,人们对计算机关注的焦点正在经历新的转变,将其视作信息高速公路的入口。绝大部分现有的网络内容适合于人工处理。即使是从数据库自动生成的网络内容,通常也会丢弃原有的结构信息。目而万维网的典型应用方式是,人们在网上查找和使用信息

2、、搜索和联系其他人、浏览网上商店的目录并且填表格订购商品等等。现有软件工具没有很好的支持这些应用。除了建立文件间联系的链接之处,最优价值和必不可少的工貝是搜索引擎。基础关键词的搜索引擎,比如AltaVista>Yahoo,Google等,是使用现有万维网的主要工具。毫无疑问,加入没有这些搜索引擎,万维网不会取得现在这么大的成功。然而,搜索引擎的使用也存在一些严重过的问题:•高匹配、低精度。即使搜到了主要相关页面,但它们与同时搜到的28758个低相关或不相关页面混在一起,检索的效杲就很差。太多和太少一样令人不

3、满意。•低匹配或无匹配。有时用户得不到任何搜索结果,或者漏掉了一些重要的相关页面。虽然对于现在的搜索引擎来说,这种情况发生的频率不高,但确实会出现。•检索结杲对词汇高度嫩感。使用最初填写的关键词往往不能得到想耍的结呆,因为祥光的文档里使用了与检索关键词不一样的术语。这当然令人不满意,因为语义相似的查询理应返冋相似的结果。•检索结果是单一的网页。如果所需要的信息分布在不同的文档屮,则用户必须给出多个查询来收集相关的页面,然后自己提取这些页面中的相关信息并组织成一个整体冇趣的是,尽管搜索引擎技术在发展,但主要的

4、困难述是上述几条,技术的发展速度似乎落后于网上内容量的增氏速度。此外,即使搜索是成功的,用户仍必须自己浏览搜索到的文档,从屮提取所需的信息,也就是说,对极其耗时的信息检索木身,搜索引擎并没有提供更多支持。因此,用信息检索来描述搜索引擎为用户提供的功能,是不确切的;用信息定位可能更加合适。另外,由于现有网络搜索的结杲不易直接被其他软件进一步处理,因此搜索引擎的应用往往是孤立的。目前,为网络用户捉供更大支持的主要障碍在于,网上内容的含义不是机器可解读的。当然,有一些工具能够检索文档、把它们分割成更小的部分、检查

5、拼写并统计词频等等。可是,一旦牵涉到解释句子含义和提取对用户有用的信息,现有的软件能力就有限了。举一个简单的例了。对现有技术而言,一下俩个句了的含义是难以区分的:我是一个计算机科学的教授。你不妨认为,我是一个计算机科学的教授。使用文木处理技术,咋样才能改善现在的状况呢?一种解决方案是沿用现有表达方式来表示网上的内容,并发展基于人工智能和计算语言学的一些H趋复杂的技术以解决现冇难题。这条途径迄今已探索多时,尽管取得了一些进展,但其任务仍然显得过于困难。另一种途径是用一种更容易被机器处理掉表示方法来描述网上的内

6、容,并此阿勇之恩那个技术来利用这种表示方法所提供的便利。我们把这个革命性的方案称为语义网运动。值的注意的是,语义网并不是一•种和首先出万维网平行的新的全球信息高速公路,相反,它将在现有万维网的基础上逐渐成长。语义运动由——万维网联盟(W3C)发起,其倡导者正是在20世纪80年代后期发明万维网的TimBerners-Leeo他期望通过这场运动来实现他的万维网的初始蓝图,在这个蓝图屮,信息含义所起的比现今万维网中重要很多。语义网的发展得到了产业界的大力支持和各国的大力支持和各国政府的大量资助。美国政府设立了DA

7、M1(DAPRAAgentMarkupLanguage)项目,欧盟第六研究框架计划也将语义网作为关键内容之一。1.2从当前万维网到语义网:实例分析1.2.1知识管理知识管理所关注的是在一个组织中获取、处理和维护知识。由于大型商业机构把内部知识视为一种能够提高生产力、创造新的价值和增强竞争力的智力资源,知识管理已成为他们的一项关键性工作,对于地理分布广泛的国际组织來说尤其如此。目前大多数可用信息只具有弱结构组织形式,如文本、咅频和视频等。从知识管理的角度来说,现冇技术从在以下诸方而的局限:•信息搜索。公司通常

8、依靠基于关键词的搜索引擎,这方面的局限性上文已经做了简要描述。•信息抽取。需要人工浏览文档,以便从中找岀相关的信息。现有的智能代理(intelligentagent)还不能令人满意地完成这项任务。•信息维护。现在这方而仍然存在一些问题,比如术语的不相容性和无法移除过时信息等等。•信息挖掘。虽然可以数据挖掘(datamining)等手段提取隐藏在公司数据库中新知识,但对于分布式的、弱结构化的文档集合,这个任务仍然是

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。