欢迎来到天天文库
浏览记录
ID:33964102
大小:1.12 MB
页数:64页
时间:2019-03-02
《基于文档结构的半监督blog信息抽取技术》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文基于文档结构的半监督Blog信息抽取技术SEMI-SUPERVISEDBLOGINFORMATIONEXTRACTIONTECHNIQUESBASEDONDOCUMENTSTRUCTURE李斌2009年12月国内图书分类号:TP399学校代码:10213国际图书分类号:004.62密级:公开工学硕士学位论文基于文档结构的半监督Blog信息抽取技术硕士研究生:李斌导师:叶允明副教授申请学位:工学硕士学科、专业:计算机科学与技术所在单位:深圳研究生院答辩日期:2009年12月授予学位单位:哈尔滨工业大学Clas
2、sifiedIndex:TP399U.D.C:004.62DissertationfortheMasterDegreeofEngineeringSEMI-SUPERVISEDBLOGINFORMATIONEXTRACTIONTECHNIQUESBASEDONDOCUMENTSTRUCTURECandidate:BinLiSupervisor:AssociateProf.YunmingYeAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerScien
3、ceandTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:December,2009Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要随着话题检测、社区发现、垂直搜索引擎等Blog研究的展开,对于结构化Blog数据的渴求也日益强烈,然而传统Web信息抽取在丰富灵活多变的Blog数据源中遇到了很大挑战,因此专门针对Blog数据的信息抽取技术研究成为迫切需要。
4、本文首先对Blog页面进行了深入的分析,发现页面含有结构信息和语义信息,针对这一特点提出了一种Blog数据特征方法,该方法将原始Blog数据转化为值和路径的表示方式,更有利于信息抽取。另外发现Blog页面模板化、模块化和个性化的特点,这会导致Html结构发生变化,进而信息抽取面对数据源也会不统一,为解决这些问题,本文提出了基于子树相似性的Blog页面分块算法(BPS-BSS),该算法通过递归地对页面中节点进行层次聚类合并筛选,能够提取出Blog页面中的所有Blog模块,使信息抽取算法只需要在模块内部抽取信息即可。实验表
5、明该算法具有很高的准确性和很低的时间复杂度。提取出Blog页面中的Blog模块之后,利用模块含有的语义信息,本文提出了基于本体论的信息抽取算法,该算法首先建立一一对应的Module概念和Blog概念,每个Blog概念都含有信息项概念,每个信息项都含有一些数据属性信息;然后采用半监督的方式简单地标注样本,利用样本来归纳学习信息项的数据属性;最后利用信息项的数据属性生成信息项的抽取规则。由于是在模块内部进行信息抽取,实验表明,这种算法不仅提高了抽取速度也提高了抽取准确性。基于以上的研究成果,本文设计并实现了一个Blog信息
6、抽取的实验原型系统,包括异步网络爬虫、页面分块模块、生成抽取规则、信息抽取算法实现等模块,为进行相关的算法实验和研究提供了一个基础平台。关键词:网页分块;模块提取;Blog信息抽取;本体论-I-哈尔滨工业大学工学硕士学位论文AbstractVariousBlogresearchessuchastopicdetection,communitydiscover,verticalsearchenginecarryouttogether,structuredBlogdataisincreasinglystrongdesire.
7、ButtraditionalWebinformationextractiontechnologiescan’tworkinrichandflexibleBlogdataeffectively,sotheBlog-specificinformationextractionresearchisveryurgent.ThispaperfirstanalyzestheBlogpagedeeplyandfindsthatthepagealwayscontainstructuralinformationandsemanticinf
8、ormation;thesefeaturespresentaBlogdataformatchangingtheoriginalBlogdataintotextvalueandpathpattern,whichfacilitatesinformationextraction.ThispaperalsofindsthateveryBl
此文档下载收益归作者所有