欢迎来到天天文库
浏览记录
ID:32987640
大小:1.31 MB
页数:48页
时间:2019-02-18
《基于元数据的web信息提取方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、山西大学硕士学位论文基于元数据的web信息提取方法研究姓名:武琼申请学位级别:硕士专业:计算机软件与理论指导教师:郑家恒20030601摘要web信息提取是当前比较活跃的一个研究课题,但web数据的大量性,异构性和动态性,是web信息提取的一个桎梏。对于结构化的Web数据,已经有较为成熟的解决方法;而对于非结构化的Web数据,由于传统数据库的底层问题,不能用来处理非结构化数据,迫切希望能提出一种方法进行非结构化数据的处理。为了解决这个问题,很多研究者提出了为web数据建立元数据,可将非结构化数据变成结构化或半结构化数据。但由于web数据形式的多样性,很难为多样性的数据建立一种统一标准的元数据
2、。本为为web数据中的文本数据建立了一种DublinCore文本元数据表,将web文本这种非结构化数据结构化。Web文本元数据分为描述性元数据和语义性元数据,描述性元数据通过分析HTML源文件直接得到,本文的主要工作有以下四部分:l对HTML源文件进行分析,将标记流和文本流分开,根据标记流,提取题目元数据项:根据文本流将文本形式化为一个矩阵模型.在矩阵模型基础上提取文本的作者元数据项。2.利用模糊数学的相关知识,为文本建立了文本状态模糊集与模糊相似矩阵,由此可提取文本的主题关键字元数据项;采用文本分类基本思想,提取题材元数据项。3.为了提取内容元数据项,首先,利用模糊相似矩阵对冗长句处理,形
3、成内容侯选句WHJI:其次,在内容候选句WJHl中,利用模糊序贯决策论对冗长段进行处理,形成内容候选句WHJ2;最后.利用平面聚类和c均值聚类算法对内容候选句集WHJ2进行聚类,然后将每一类中的相关性较小的句子剔除.最后形成文本内容元数据项。4.试验结果表明:本系统对语义性元数据项填写取得很好效果。关键词:web信息提取、元数据、文本矩阵、平面聚类、C—均值聚类AB鼹RACTWebinformationex'打aefioniSacurrentlylovelyresearchfileld.butthemass.isomeranddynamicsofwebdataisad}塌cultofwebi
4、nformationexl删on.Wecarldividewebdataintotwokiads:structuraldataandunstrdctureddata.Wehavematurermethordstodealwiths订ucturaldata.However,because们ditionaldatabasebottomcallnotdealwithtmslructureddata,aweythatdealwithunsmacUIreddamneedbepresented。Manyscientistspresentwebmatedata{riordertoslovetheprobl
5、em.Webmet{adatacantransformunstructureddataintostructuraldata.ItisdiIlIculttoconstructametadatastandardforwebdata.ThispapercoastnaetaDublinCorem融tadataforwebtextdata.ThiskindofmetadatacanconvertwebtextdatawhichisunstructureddataintosⅡuctunlaldam.Inthispape‘WedivideDublinCoremetadataintotrac豫metad魅a
6、andcontentalmetadat&we鄙in妇ingmetadalabyHT池.1rhem硎yresearchofthispaperisfillingincontenlalmetadat色.(t)OnthebaseofHTIvlL。懿CanextractDC.fitle.InoⅨler耙exh'aetcomentalmetadetaWeeonslruetmatdxmodelforwebtext,bywhichDC.畦tleAndDC,creatercarlbefilledin.(2)Ontllebaseofmalfixmodelwecombinecorrelationalknowled
7、geoffaintmathtofillinDC。subjectandDC.type.(3)ExtractingDC.descdotionisadifficultofthispaper.Inorderto6IlinDC.descriptionWedividethreesteps.Firstly,WedealwithlengthyScrltenge$byfaintsimilarmatrixandformDC.de
此文档下载收益归作者所有