基于文档结构的半监督blog信息抽取技术

基于文档结构的半监督blog信息抽取技术

ID:33964102

大小:1.12 MB

页数:64页

时间:2019-03-02

基于文档结构的半监督blog信息抽取技术_第1页
基于文档结构的半监督blog信息抽取技术_第2页
基于文档结构的半监督blog信息抽取技术_第3页
基于文档结构的半监督blog信息抽取技术_第4页
基于文档结构的半监督blog信息抽取技术_第5页
资源描述:

《基于文档结构的半监督blog信息抽取技术》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于文档结构的半监督Blog信息抽取技术SEMI-SUPERVISEDBLOGINFORMATIONEXTRACTIONTECHNIQUESBASEDONDOCUMENTSTRUCTURE李斌2009年12月国内图书分类号:TP399学校代码:10213国际图书分类号:004.62密级:公开工学硕士学位论文基于文档结构的半监督Blog信息抽取技术硕士研究生:李斌导师:叶允明副教授申请学位:工学硕士学科、专业:计算机科学与技术所在单位:深圳研究生院答辩日期:2009年12月授予学位单位:哈尔滨工业大学Clas

2、sifiedIndex:TP399U.D.C:004.62DissertationfortheMasterDegreeofEngineeringSEMI-SUPERVISEDBLOGINFORMATIONEXTRACTIONTECHNIQUESBASEDONDOCUMENTSTRUCTURECandidate:BinLiSupervisor:AssociateProf.YunmingYeAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerScien

3、ceandTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:December,2009Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要随着话题检测、社区发现、垂直搜索引擎等Blog研究的展开,对于结构化Blog数据的渴求也日益强烈,然而传统Web信息抽取在丰富灵活多变的Blog数据源中遇到了很大挑战,因此专门针对Blog数据的信息抽取技术研究成为迫切需要。

4、本文首先对Blog页面进行了深入的分析,发现页面含有结构信息和语义信息,针对这一特点提出了一种Blog数据特征方法,该方法将原始Blog数据转化为值和路径的表示方式,更有利于信息抽取。另外发现Blog页面模板化、模块化和个性化的特点,这会导致Html结构发生变化,进而信息抽取面对数据源也会不统一,为解决这些问题,本文提出了基于子树相似性的Blog页面分块算法(BPS-BSS),该算法通过递归地对页面中节点进行层次聚类合并筛选,能够提取出Blog页面中的所有Blog模块,使信息抽取算法只需要在模块内部抽取信息即可。实验表

5、明该算法具有很高的准确性和很低的时间复杂度。提取出Blog页面中的Blog模块之后,利用模块含有的语义信息,本文提出了基于本体论的信息抽取算法,该算法首先建立一一对应的Module概念和Blog概念,每个Blog概念都含有信息项概念,每个信息项都含有一些数据属性信息;然后采用半监督的方式简单地标注样本,利用样本来归纳学习信息项的数据属性;最后利用信息项的数据属性生成信息项的抽取规则。由于是在模块内部进行信息抽取,实验表明,这种算法不仅提高了抽取速度也提高了抽取准确性。基于以上的研究成果,本文设计并实现了一个Blog信息

6、抽取的实验原型系统,包括异步网络爬虫、页面分块模块、生成抽取规则、信息抽取算法实现等模块,为进行相关的算法实验和研究提供了一个基础平台。关键词:网页分块;模块提取;Blog信息抽取;本体论-I-哈尔滨工业大学工学硕士学位论文AbstractVariousBlogresearchessuchastopicdetection,communitydiscover,verticalsearchenginecarryouttogether,structuredBlogdataisincreasinglystrongdesire.

7、ButtraditionalWebinformationextractiontechnologiescan’tworkinrichandflexibleBlogdataeffectively,sotheBlog-specificinformationextractionresearchisveryurgent.ThispaperfirstanalyzestheBlogpagedeeplyandfindsthatthepagealwayscontainstructuralinformationandsemanticinf

8、ormation;thesefeaturespresentaBlogdataformatchangingtheoriginalBlogdataintotextvalueandpathpattern,whichfacilitatesinformationextraction.ThispaperalsofindsthateveryBl

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。