中文信息抽取第十一章知识讲解.ppt

ID：60855889

大小：4.22 MB

页数：38页

时间：2020-12-23

资源描述：

《中文信息抽取第十一章知识讲解.ppt》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、中文信息抽取第十一章自底向上来看,第一层规定了文档中字符的编码方式和资源的统一标识。第二层,XMI和XMLSchema,使用自定义的标签对文档的结构进行标注,规范文档的语法格式,就可以方便地利用计算机处理文档,第三层,明确文档中标引对象之间的关系,即资源描述层RDF+RDFschema。RDF定义了元素之间的关系,表现为三元组的集合(类似于句子的主语、谓语、宾语),XML加上RDF(S)就相当于建立了人工智能中的语义网络可以进行一定的推理。使用XML十RDFS(S),人们可建立各自的语义网,只要有一组自成体系的术语就可以了,第四层,明确标引项的精确含

2、义,要让计算机相互理解对方的内容,需要有一组共同的标准的概念体系,这就是Ontology。XML+RDF(S)+Onto1ogy构成了计算机相互理解的基础。这样每增加一个层次,计算机在知识处理上就多一份能力。在Onto1ogy之上进一步要做一些逻辑推理的工作,接下来就是保证信息是可信赖的,这成了一个多层次的语义网。语义Web的实现还需一个长期的过程。从目前的情况来看,语义网下面三层的研究已经开展较长时间,研究成果相对较多,并推出了一系列的标准,可以说打下了比较坚实的基础。Onto1ogy层和逻辑层,正在引起更多的关注。作为语义Web中从语法处理向语义

3、处理的转折,这两层起着至关重要的作用,相关研究正处在探索之中,有很多有意义的尝试和应用,却还没有成熟的技术和标准,因此成为相关领域研究热点11.2.2本体描述语言11.3格式转换将HTML格式转換为XML格式,使用JTIDY工具完成转換工作。HTML和XML都是从SGML派生出来的标记-i再言,HTML的设计目标是显示数据并集中于数据外观,而作为数据交换标准的XML有很多优点:自述性强,重在描述数据本身、数据和显示分离,文件以纯文本的形式输出,与形式无关。显然,它的出现对解决上述的问题带来新的活力。XMl是一种极灵活的、传递数据的方式,为了能获取抽取

4、信息的XML文件,借助JTIDY工具将HTMI.文件转换为XML格式是本方法的关键。JTIDY读取输入HTML格式文件,然后如果发现有任何不匹配或遗漏的闭合标记地，纠正不完整标记,最后输出一个格式良好的XML文档。11.4信息解析处理XML文档有多种解析方式,如SAX、DOM、JAXPJDOM等,JDOM许多优点:JDOM是一个开放源代码的纯Java数式应用程序接口,用来分析;建立和序列化XML文档;它是包含了Java语言的语法及语义,提供了一个简单、轻量的XML文档操作方法;JDOM使用标准的Java编码模式;JDOM将XML文档表示为树,包括了元

5、素、属性、说明、处里指令、文本节点和CDATA段等,整个树结构可以在内存中随时生成,利用可以访问树结构中的任何部分;JDOM可以通过标准的构造器和set方法支持XML文档的修改。11.5基于DOM子树的抽取规则抽取算法11.5.1DOM文档对象模型(documentobiectmode,DOM)是一组抽象接口,用于模型化XML数据,定义了XML文档的逻辑结构,给出了一种访问和处理XML文档的方法,它与语言和平台无关,DOM树结构清晰简单,意义表述明确,成为描述和操作标准HTML文档最流行的方式之一,它将HTML语言里面的标记作为DOM树的节点,是HT

6、ML文档的层次化表示.图11.3与图11.4分别是某图书网站的HTML源代码以及对应的网页(部分)在浏览器中显示的结果。对于人来说,从图11.6中可以轻松得到以下信息:这本书的书名是«JAVA编程思想:第3版»,作者是BruceEckel,市场价是95元等,图11.3显示的HTMI代码没有给出明确的语义信息,因此计算机不能轻松地分析得到正确的语义,但可以借助DOM树来描述HTML中层次关系,如图11.5所示(经过预处理的部分DOM树),辅助应用程序进行分析11.5.2XPathw3c把用于对XML文档子集寻址的标准语言称为XPath(XMl.path

7、guage,XML路径语言),XPath使用基子路径的方法遍历文档的信息集，可以将XPath理解成为XML的SQL语句,它基于XMI文档的逻辑结构,用XPath可以检索XML文档的元素和属性在Java程序中使用XPath与在Java程序中使用SQL差不多,因此可以把XPath看成与SQL相似的査询语言,不同的只是XPath并不是从数据库中抽取信息,而是从XML文档中抽取信息。-LocationStep是XPath的基本结构,提供了从XML文档中选择节点的方法,包括三个部分:轴(axis)、节点测试(nodetest)和谓词(predicate)。轴与

8、节点测试用(::)分开,每个谓词放在方括号中,即axisname::nodetest[predicate]1

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 38



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

中文信息抽取第十一章知识讲解.ppt

中文信息抽取第十一章知识讲解.ppt

相关文章

相关标签