欢迎来到天天文库
浏览记录
ID:51306751
大小:260.00 KB
页数:7页
时间:2020-03-21
《文本信息抽取平台的设计与实现——基于机器学习.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、文本信息抽取平台的设计与实现一一基于机器学习辛欣李涓子清华大学摘要:本文设计了一种可行的通用文本信息抽取平台的框架,使得用户可以在平台上轻易的针对不同数据集尝试不同机器学习算法进行信息抽取。按照该框架,我们开发了一个信息抽取平台原型:KEGSMART。它集成了“手工标注”,“抽取结果分析与比较”,“应用演示输出”三个可视化工具和“支持向量机”,“条件随机场”两种机器学习算法。两个抽取任务分别应用不同的算法在平台上实验,实验结果验证了该平台的实用性。关键词:信履抽取;机器学习:支持向量机;条件随机场DesignandImplementationofaTextualInformationEx
2、tractionPlatformBasedonMachineLearningXinXin1JuanziLi2TsinghuaUniversityAbstract:Thispaperhasdesignedapracticalframeworkofinformationextractionplatform.Itcanintegratedifferentmachinelearningmodelsandcanbeusedtodifferentapplications.Aprototypesystemhasbeendevelopedunderthisframework.Manualannotati
3、on,modelbuildingandanalysis,andextractiontoolsserveasvisualmodule;SupportVectorMachine,ConditionalRandomFieldareintegratedasalgorithms・Twoapplicationsusingdifferencealgorithmsareexperiencedontheplatform,andtheresultsshowthattheplatformhasgoodutility.Keywords:InformationExtraction;MachineLearning;
4、SupportVectorMachine;ConditionalRandomField1介绍随着网络的存储与应用的增加,海量数据使得“文本信息抽取”的重要性越来越得到增强。有了文本信息抽取技术,计算机就能自动地将非结构化的数据结构化,从而为进一步的数据检索和挖掘提供语义基础。在目前信息抽取技术的发展中,机器学习算法模型被广泛的应用在各个领域。这些模型包括:模式学习(LP?)⑴,支持向量机(SVM)3隐马尔科夫链(HMM)叭最大墻模型(ME〉何,最大爛马尔可夫模型(MEMM)⑸,条件随机场模型(CRF)⑹等这些模型已被广泛涉及在“词组识别”,“句子成分识别”等不同应用领域。然而,尽管当前抽
5、取算法的研究发展相对迅速,对于信息抽取系统的设计还不充分。主要的问题包括:①有一些文本抽取系统只是针对特定的应用,如GATE⑺中集成的ANNIE,能够识别“地名”,“句子成分”等,但不能广泛的直接用在其他抽取任务;②有一些系统只是针对一种特定的抽取算法,如Amilcare,集成TLP但不能集成其他算法。这些问题就使得对一个新的领域的信息抽取任务,或者对一个现有信息抽取•328・任务应用另一种不同的机器学习算法,几乎所有的工作都要重新开始。那么是否能够设计和实现一个信息抽取的平台,使得不同的信息抽取任务,和应用不同的抽取模型都能够在这个平台上方便的进行呢?这就是本文所关注的主要内容。本文
6、的目标在于通过深入理解文本信息抽取的整个过程,研究如何设计和实现一个能够面向不同领域应用和不同抽取算法应用的信息抽取平台。主要的工作及贡献包括:①基于对多种机器学习方法抽取流程的研究,设计并提岀一种可行的通用文本信息抽取平台框架,使得该框架一方面通过可视化工具方便用户对数据的观察,另一方面将不同的算法集成在一起,方便用户实验不同算法。①在该框架下开发了一个信息抽取平台的原型,包括集成三种可视化工具和支持向量机,条件随机场两种算法。③在该平台上对两个信息抽取任务进行实验,“上海证券交易所企业年报”的抽取和“国际学术会议论文邀请函”的抽取,通过两个抽取任务的抽取结果来验证平台设计与实现的实用
7、性。2文本信息抽取平台的框架设计2.1碁佈机器学习算法的文本抽取流程概述为了更好的理解信息抽取平台的设计,我们先对用机器学习算进行文本抽取的流程给以概述,并以“上海证券交易所企业年报”的抽取为例加以说明。图1给出了基于机器学习算法进行抽取的整体流程。我们可以把它划分为三个阶段:“数据定义及标注”,“模型训练及测试”和“用模型抽取”。第一阶段主要是定义抽取任务,并在一定规模的数据集上对定义好的要抽取内容进行标记,用来作为训练模型的数据
此文档下载收益归作者所有