化学物质web信息获取方法的研究与实现

化学物质web信息获取方法的研究与实现

ID:35048697

大小:4.29 MB

页数:59页

时间:2019-03-17

化学物质web信息获取方法的研究与实现_第1页
化学物质web信息获取方法的研究与实现_第2页
化学物质web信息获取方法的研究与实现_第3页
化学物质web信息获取方法的研究与实现_第4页
化学物质web信息获取方法的研究与实现_第5页
资源描述:

《化学物质web信息获取方法的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、\FI一\仁-避謂一^一:I:-.為V篆.八学滅茜3.誕7.:1公r研i|>,1八,矣:譽^祭彰扣V巧、.4藥,辨、V?;將,打‘望、,.,纂:->鮮"作!警^議VS尸^\^3軒?5L..‘^A片^輯i芙苗t、??>>..、;2全^J生S减,'巧"代,群读:。-?,.姑"T./第"号r.楚户>.?去’、漱‘姑鼓嶺f提良,断藻信置蠢柄^;哮識;鱗著..-爲為:!iX黃.^01^V獻^#i中4喝禱爲^八猶.戮^訂诚.:.;&..挺.、?卑、苗'盛謹i.舊疑議度?蘇書著乂獲>.':.黃嘉擎、

2、遗指主巧.獲籌?I義捧p>|,藻,;可勺,,薄g'與f.兴.¥.;‘f議’.贿」料*i梦..尋'&成v礁编间編蠢;;:;;也.聲..劈梦.^",,苦|-審巧、蘇募-管参矣i義變;臂^綺;.;^.爲|,:爹3謹.蒙#i#.?t動;!5斯i.^舞-.着/^S.蠢巧i績^研究生学位论文的独创性声明本人声明:所呈交的专业学位硕壬论文是我个人在导师指导下独立进行的研究工作及取得的研究结果;论文中的研究数据及结果的获得完全符合学校《关于规范西北此规定一

3、任与法农林科技大学研究生学术道德的替行规定》;初后果均,如果违反律责人承担。由本尽我所知,除了文中特别加方、标注和致谢的地方外,论文中不包含其他人已经发过也不他人和己人已西北林大其它或撰写结,包含其自本获得农科技学或表的研究果而使一工教位证料。的任构过的与我同作的同对本研究何贡育机的学或书用材事所做献已论文的致谢了明确的说明并表示了谢意。均中作在日研究生签篇:间:的月时^年哀占/生学位论文的承导师指导研究诺人承诺的专业位硕去研究生所呈交的硕去学位论文是我本:我学在工及取职工结,

4、格按导下独立展研得究结果,属^我现岗务作的果并严指开究作的研照校《于规西北农林技大研生道德帮行规定》而获得的研究结学关范科学究学术的果。如果《关规西北农袜技大学研究生学术道德的督行规定》,我應违反学校于范科任接按关规罚处理承担应师连。受学校定的处并相导带责有义签違:曰:时间年月导师^Classificationcode:TP391Universitycode:10712UDC:004.8Postgraduatenumber:2014051364Confidentialitylevel:Ope

5、nThesisforMaster’sDegreeNorthwestA&FUniversityin2016RESEARCHANDIMPLEMENTATIONOFCHEMICALWEBINFORMATIONACQUISITIONMETHODMajor:AgriculturalExtensionResearchField:AgriculturalInformationNameofPostgraduate:WanJingruiAdviser:Prof.LiShuqinDateofSubmission:May,2016Ya

6、nglingShaanxiChina化学物质Web信息获取方法的研究与实现摘要随着互联网技术的高速发展和计算机的全面普及,因特网成为了世界上最大的信息资料库,也日益成为化工企业、组织和个人发布化学信息的主要场所。然而,由于因特网中庞大的信息量,使得采用百度、谷歌等进行信息检索的常规手段存在准确度不高、效率低下的问题,无法满足化学工作者高效检索化学信息的需求。针对上述问题,本文以常用化学物质网站为研究对象,开展化学物质Web信息获取方法的相关研究,以实现网页中化学物质信息的抽取及存入化学物质数据库的目的。本文的主要

7、研究内容和实验结果如下:(1)化学物质网页的采集方法研究。采集化学物质网页是进行网页信息抽取的前提,但是在化学网站中不可避免地存在与化学物质信息无关或相关度不高的网页(即主题无关性网页),针对此问题本文采用基于正则表达式的URL主题相关性预测技术和基于文字内容启发式的网页主题相关性判别技术实现主题相关网页的爬取功能,并在此基础上实现一个主题网络爬虫。经实验证明,该主题网络爬虫能够有效采集化学物质网页,达到研究所需要求。(2)化学物质Web信息抽取方法研究。爬取到的化学物质网页,其格式和内容达不到作为训练样本网页和

8、待抽取网页的要求,因此首先需要对网页进行预处理操作,修复网页格式、剔除“噪声”信息;然后在分析网页结构的基础上,设计基于树结构的抽取规则生成算法,针对单个网页来主动寻找迭代结构并用正则表达式对其进行描述生成网页的抽取规则;最后根据得到的抽取规则把网页中的化学物质信息提取出来,保存到化学物质数据库中。实验结果表明,设计的抽取方法能够准确抽取出网页中的化学物质信息,召回率保持

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。