自动术语识别的研究与实现

自动术语识别的研究与实现

ID:33322200

大小:6.62 MB

页数:50页

时间:2019-02-24

自动术语识别的研究与实现_第1页
自动术语识别的研究与实现_第2页
自动术语识别的研究与实现_第3页
自动术语识别的研究与实现_第4页
自动术语识别的研究与实现_第5页
资源描述:

《自动术语识别的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、—————_———————————]指导小组成员名单张亮教授杨卫东副教授周向东副教授张守志副教授谈子敬副教授2.13语料库的主要问题⋯1221.4文本”21.4l低级格式问题2l_42什么是一个词2143词法2.2术语识别的主要思路2.21语料库的预处理⋯142.211词性标注2212短语结构162.22术语的特征提取162.3统计学的ATR算法172.31TermFrequency1723C-value复E大学硕士学位论立19344术语提取的策略384.5术语提取的算法⋯414.51具体步骤414,52纯文本部分的处理424.53半结构化信息计算434.54算法的数据流44第

2、5章结论465l总结465.2展望⋯46参考文献⋯”48致谢50硕士期间发表的论文51轻E大学碗士学位论文摘要本文介绍了一些经典的自动术语识别(XFR)算法,并对于它们的思想进行深入的分析和总结,并进行了相关的实验比较,对于其中的算法做了量化的评估。通过引入集成排序的思想来提高自动术语识别精准度.并设计了多种方法进行对比分析。本文还进行了半结构化术语抽取问题的研究,提出了自己的解决方法。首先,本文对于ATR算法的基本思想以及统计学的ATR算法进行概要的介绍,对于这些算法进行了特征分析,对它们的基本原理进行了总结,给出了详细的公式以及示例。领域语料库需要先进行一些预处理之后才能形

3、成候选术语.这样才能够直接应用到基础的A1’R算法。本文是基于统计学特征的算法,因此从不同的方面来描述统计学的信息显得尤为重要,并因此而通过成熟的ATR算法来参考其特征提取。为了进一步提高ATR算法的识别精准度,本文引A排序集成的思想来进一步处理术语识别的问题。即在多个有序序列的基础上进行集成t形成一个新的序列。这样的一个序列是加强了有效的特征,使术语的重要特征能够更加明显的表现出来。已有一些基础的集成方法可以进行处理来形成新的排序序列.但这样的序列并不能保证满足一些基本的投票标准。本文采用了局部Kemeny最优方法处理术语识别问题.在尽最降低多组序列逆序对之和的基础上,保持较

4、高的执行效率。该方法先在多个ATR算法产生的序列集上使用基础的集成方法生成一个初始的集成序列,然后再进行局部Kemeny最优化,使其能够与初始集成序列保持一致,同时又满足孔多塞标准。这样的方法能够保持一个较小的SK值,使孔多塞赢家保持在序列的前面。除此以外,本文还进行了半结构化文档自动术语提取的研宄。互联网中有海量的数据信息,如何利用上面的资源进行领域术语的提取并构建相关的大量应用将具有非常重要的前景。从数据源中获取半结构化的领域语料库后,首先是对于半结构化文档资源进行文本的抽取和整理。特别是对于不规范的文档需要使用了相关的抽取工具进行处理,将其标签结构等问题规范化。对于规范的

5、半结构化文档,鉴于其具有树状结构,将其抽取成一个DOM树,然后以数据文本为基本单位进行属性特征的提取,数据文本往往分布在其叶子节点当中,候选术语是在单个数据文本里面经过相关预处理后生成的。经过分析文档组织结构和大量的试验对比,本文使用了数据文本的睦度、超链接属性和结构层级等信息来进行统计实现,在解析文档的过程中需要对于这些半结构化属性进行记录,这样在该数据文本上的生成的候选术语便有了相应的半结构化属性值。对候选术语上的各个属性信息进行统计计算,以各个属性分别产生半结构化信息上的序列,生成序列集。然后去掉标签文本和其他非数据文本后,形成纯文本的数据文件。参考传统的ATR算法,采用

6、其中一些重要的统计学特征,实现算法提取出候选的术语,并形成一个独立的排序序列。综合这两方面的实现·进行线性加权得出最终的候选术语分值。关键词集成排序:自动术语识别:文本挖掘;信息抽取复E大学硕十学位论文AbstractAutomaticTermRecognition(ATR)IsakeystepofInfonnationExtractionandTextMiningThestatisticsbasedautomatictermrecognitionalgorithmisappliedtoalargenumberofrelatedprojects,theaccuracyofthe

7、termrecognitionhasanlmportant1nfluencefortheimplementationofthesystemWefocusonseverafmethodsofrankaggregationandcomparethem1m18paperalsocarriedoutproblemofsemi—structuredtermextraction,andputforwardourownsolutionFirstly,wejntroducethebasicideaforth

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。