网络文本数据异构集成技术研究

网络文本数据异构集成技术研究

ID:35095111

大小:5.39 MB

页数:54页

时间:2019-03-17

网络文本数据异构集成技术研究_第1页
网络文本数据异构集成技术研究_第2页
网络文本数据异构集成技术研究_第3页
网络文本数据异构集成技术研究_第4页
网络文本数据异构集成技术研究_第5页
资源描述:

《网络文本数据异构集成技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、’'卢、:.-V,-户八-:‘、r公巧,I,’'’‘‘'‘巧’*、,i、’"、":^、\’%/"i‘V.\;乂/f\V汽;;顧纖鑛骇灣纖k纖誘纖#:斬强鶴卿麟:占满議猶躬赫徽圓犠賴謬M哪鄉轉賴麵鱗.柄转皆舌誦筆*’:心.:..皆.V八方,乂乂维;八:’—'..、扣‘^IP&鑛心.硕幸研究生学位%文-y瞧':....-讓讓斬韻證:耀鑽讓謹譲i壊-??S翻參議画義藝義巧心麵讓I麵、k‘‘.’*。''-;'-‘4、、矣?’、>H,.:;;:V、;乃,‘一

2、、\、'.。.':、逆‘.vc子网络女本数据异构集成技术研尧瀉護黎攀'■■-:.,:Ov..:,::£:,^,.,'‘、奸^,'’,,-妒、、,V.户.:fV^驛护■^...^"'..^■^‘-’'..心、’;;:^护^,.,前柄护片八\::於苗1;,。;非起适马的^:‘、■■'''’,?‘‘’^'古’'、.-、’’-‘''//V/K、心/,片‘/’、、学生姓名邱铜相、,乃^令 ̄1^曲。31212。1()3.詳.曲舞,.^圓養義^^.亡女'^、、‘,‘‘心削1

3、無V)计算机科学与技术_.._..1.心;;;.辩\f巧.、.二、-—^‘‘■>.巧朵方%‘;.护信息安全,據‘户‘、、-,.师f景;zir巧巾T,!;,岸.;;J,:产冷巧'—’‘'.'’LW--?‘<<-、’;-.,,峡、,,>,/*、?'、、,'、。,,"yL’?*:。''又,k?',一一;,?、?1、‘,?'/??^,r,?。1‘‘?、、-''一?心方乌‘、’:"‘护;、於;:、、?、、—r/’一"产^/;《’?‘*暮'f;f,‘w

4、tj*。、>I。‘、'私)>/A?.了、,U。、3,I、vy、K、、/.%?,I;、,'*?’-;‘占,V!;w、、。>x:;/:,;v冷二/,,,.巧一;/?‘'’、’-:‘,V265*苗。01年月18日/若式—?的。-i;>V<:―V片:——;一;:‘;‘;‘'':‘,".,V/,:;;产;混父/;:*一*?,’‘心,兴-化i、^’。f-二,‘*广’一;T^一城,‘点?'、?*巧罗:飞巧聲:T追應;J喔

5、爲北方工业大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研巧工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的。个人和集体,均己在文中W明确方式标明本人完全意识到本声明的法律结果由本人承担。学位论文作者签名、?/:务抑日期:7^以如知呼減学位论文使用授权书学位论文作者完全了解北方工业大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北方工业大学。学校

6、有权保留并向国家有关部口或机构送交论文的复印件和电子版,允许学位论文被查阅和借阅;学校可W公布学位论文的全部或部分内容,可W允许采用影印、缩印或其它复制手段保存、汇编学位论文(保密的学位论文在解密后适用于本授权书)。□保密论文注释,学校批准,:经本人申请本学位论文定为保密论文,密级,:期限:年,自年月日起至年月日止,解密后适用本授权书。材非保密论文注释;本学位论文不属于保密范围,适用本授权书。本人签名:坪旬弓祠日期:备'、mI、(?导师签名:支t日期:?[)?.-V?.网络文

7、本数据异构窠成技术研究摘要网络爬虫技术在互联网中运用已经是非常成熟,但其检索结果的准确性仍是搜索引擎急需解决的问题,并且因互联网web数据的特殊性和无结构性,使得一定的数据结构存储检索数据不能按照,构成了数据异构集成的难题。本文研巧内容是对主题网络爬虫进行改造,使得主题网络爬虫能够按照主题语义进行抓取数据,提髙检索结果的准确率,并且对检索结果进斤数据异构集成。聚焦主题网络爬虫是在基于主题网络爬虫基础上,利用正则表达式描述主题-TF-IDFTFIDF模型,结合改进的算法,使得算法能够根据主题语义进行判断网

8、页内容,提商主题网络爬虫的搜索数据的准确性。基于语义分析的垂直网络爬虫是根据用户输入语义来搜索网络资源信息,同时能智能的过滤掉无关信息,使得TF-检索出来的信息更加准确和全面。实验数据表明IDF,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。