基于文档结构的半监督blog信息抽取技术

ID：33964102

大小：1.12 MB

页数：64页

时间：2019-03-02

资源描述：

《基于文档结构的半监督blog信息抽取技术》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、硕士学位论文基于文档结构的半监督Blog信息抽取技术SEMI-SUPERVISEDBLOGINFORMATIONEXTRACTIONTECHNIQUESBASEDONDOCUMENTSTRUCTURE李斌2009年12月国内图书分类号：TP399学校代码：10213国际图书分类号：004.62密级：公开工学硕士学位论文基于文档结构的半监督Blog信息抽取技术硕士研究生：李斌导师：叶允明副教授申请学位：工学硕士学科、专业：计算机科学与技术所在单位：深圳研究生院答辩日期：2009年12月授予学位单位：哈尔滨工业大学Clas

2、sifiedIndex:TP399U.D.C:004.62DissertationfortheMasterDegreeofEngineeringSEMI-SUPERVISEDBLOGINFORMATIONEXTRACTIONTECHNIQUESBASEDONDOCUMENTSTRUCTURECandidate:BinLiSupervisor:AssociateProf.YunmingYeAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerScien

3、ceandTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:December,2009Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要随着话题检测、社区发现、垂直搜索引擎等Blog研究的展开，对于结构化Blog数据的渴求也日益强烈，然而传统Web信息抽取在丰富灵活多变的Blog数据源中遇到了很大挑战，因此专门针对Blog数据的信息抽取技术研究成为迫切需要。

4、本文首先对Blog页面进行了深入的分析，发现页面含有结构信息和语义信息，针对这一特点提出了一种Blog数据特征方法，该方法将原始Blog数据转化为值和路径的表示方式，更有利于信息抽取。另外发现Blog页面模板化、模块化和个性化的特点，这会导致Html结构发生变化，进而信息抽取面对数据源也会不统一，为解决这些问题，本文提出了基于子树相似性的Blog页面分块算法（BPS-BSS），该算法通过递归地对页面中节点进行层次聚类合并筛选，能够提取出Blog页面中的所有Blog模块，使信息抽取算法只需要在模块内部抽取信息即可。实验表

5、明该算法具有很高的准确性和很低的时间复杂度。提取出Blog页面中的Blog模块之后，利用模块含有的语义信息，本文提出了基于本体论的信息抽取算法，该算法首先建立一一对应的Module概念和Blog概念，每个Blog概念都含有信息项概念，每个信息项都含有一些数据属性信息；然后采用半监督的方式简单地标注样本，利用样本来归纳学习信息项的数据属性；最后利用信息项的数据属性生成信息项的抽取规则。由于是在模块内部进行信息抽取，实验表明，这种算法不仅提高了抽取速度也提高了抽取准确性。基于以上的研究成果，本文设计并实现了一个Blog信息

6、抽取的实验原型系统，包括异步网络爬虫、页面分块模块、生成抽取规则、信息抽取算法实现等模块，为进行相关的算法实验和研究提供了一个基础平台。关键词：网页分块；模块提取；Blog信息抽取；本体论－I－哈尔滨工业大学工学硕士学位论文AbstractVariousBlogresearchessuchastopicdetection,communitydiscover,verticalsearchenginecarryouttogether,structuredBlogdataisincreasinglystrongdesire.

7、ButtraditionalWebinformationextractiontechnologiescan’tworkinrichandflexibleBlogdataeffectively,sotheBlog-specificinformationextractionresearchisveryurgent.ThispaperfirstanalyzestheBlogpagedeeplyandfindsthatthepagealwayscontainstructuralinformationandsemanticinf

8、ormation;thesefeaturespresentaBlogdataformatchangingtheoriginalBlogdataintotextvalueandpathpattern,whichfacilitatesinformationextraction.ThispaperalsofindsthateveryBl

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 64



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于文档结构的半监督blog信息抽取技术

基于文档结构的半监督blog信息抽取技术

相关文章

相关标签