浅论基于开放语料库的模式自动生成的设计与实现

浅论基于开放语料库的模式自动生成的设计与实现

ID:34806489

大小:730.44 KB

页数:71页

时间:2019-03-11

浅论基于开放语料库的模式自动生成的设计与实现_第1页
浅论基于开放语料库的模式自动生成的设计与实现_第2页
浅论基于开放语料库的模式自动生成的设计与实现_第3页
浅论基于开放语料库的模式自动生成的设计与实现_第4页
浅论基于开放语料库的模式自动生成的设计与实现_第5页
资源描述:

《浅论基于开放语料库的模式自动生成的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、上海交通大学硕士学位论文基于开放语料库的模式自动生成的设计与实现姓名:曾兴杰申请学位级别:硕士专业:计算机应用技术指导教师:李芳20031201基于开放语料库的模式自动生成的设计和实现摘要信息抽取InformationExtraction简称IE技术是一门新兴技术它的主要任务是通过对自然语言文档信息内容的结构分析从中抽取出有意义的事实填槽物生成结构化的有价值的信息对于任何的IE系统所有的匹配和信息抽取都基于模式因此模式库Pattern是信息抽取系统的关键部分模式获取可以通过手工编写或机器自动生成来实

2、现手工编写的模式库虽然非常准确但是耗费大量的人力和时间而且模式库的适用范围受领域的限制模式的自动生成不仅能极大的减少人工的工作量而且对于信息抽取系统的可扩充性和可移植性都是至关重要的传统的模式自动生成方法通常为向系统提供一个固定规模的语料库通过人工标识出语料中的填槽物来自动获取对应的模式由于语料库的规模有限通常只能生成一些最常见的高频模式针对语料库的规模限制本文提出了一种基于开放语料库的模式自动生成方法该方法借助于模式和实例之间的二元性从一个较小的种子语料库和种子模式库出发不断地从网络上查找新的语料

3、并利用语料自身所包含的信息来判断语料的正反性从正例语料中生成新的模式用反例语料对生成的新模式进行评价本文还着重研究了由于采用开放语料库而引出的对新实例的正反性判断问题国外的系统多借助于领域的专业知识库来实现此判断方法不仅受领域知识库的准确性制约而且难以使用到别的领域我们通过对单词/短语在不同位置的权重统计模型并结合语句中的命名实体来对语料进行正反性的判断测试结果表明该方法达到了和国外类似系统相当的准确度作者将这种方法应用到投资领域设计并实现了一个小型的模式自动生成和信息抽取系统该系统采用Jbuild

4、er7.0开发用XML1.0构建模式库用中科院计算所ICTCLAS汉语词法分析系统对语料进行切分词性标注和浅层句法分析论文首先介绍了信息抽取和模式生成领域的研究现状和发展方向对典型的模式生成系统进行了比较和分析然后讨论了在本系统所使用的关键技术系统的总体框架和具体实现随后分析了该方法在投资领域中的测试结果并和国外的其他几个类似系统进行了比较最后总结并对其存在的不足之处进行了讨论关键词信息抽取模式获取开放语料库模式和实例的二元性正反实例划分THEDESIGNANDIMPLEMENTATIONOFPAT

5、TERNACQUISITIONBASED_ONOPENCORPUSAbstractInformationExtraction(IE)isanewcomingtechnology.ThechiefmissionofanIEsystemistoextracttheuser-interestedinformation(slot-filler)fromnaturallanguagedocumentsbystructureanalysis,andthentostoretheextractedinformati

6、oninstructuredformatforfurtherapplication.Becausetheinformationextractionprocessisbasedonpatternmatching,themostcriticalpartforanyIEsystemisitspatternset.Pattensetcanbegeneratedbythesetwoways:humaneffortormachinelearning.Clearly,hand-craftedpatternseti

7、sofhighprecisionbutdomain-limited,andbuildingsuchasetisatime-consumingprocess.Patternacquisitionautomaticallywillnotonlyreducethehumaneffortgreatly,butalsoisquitehelpfultoIEsystem’sexpandabilityandsystem’scapabilityofdomainadaptation.Inclassicalmethods

8、forpatternacquisition,systemdependsonafixedtrainingcorpus,andlearnspatternfromitaftertaggedoutslotfillersincorpusbyhumaneffort.Forthelimitedscaleoftrainingcorpus,thesystemcangeneratethosemostfamiliarpatterns.Inthispapertheauthorpresents

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。