深网查询接口判定技术的研究

深网查询接口判定技术的研究

ID:34042652

大小:7.22 MB

页数:76页

时间:2019-03-03

深网查询接口判定技术的研究_第1页
深网查询接口判定技术的研究_第2页
深网查询接口判定技术的研究_第3页
深网查询接口判定技术的研究_第4页
深网查询接口判定技术的研究_第5页
资源描述:

《深网查询接口判定技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、武汉理工大学硕士学位论文深网查询接口判定技术的研究姓名:李齐会申请学位级别:硕士专业:计算机应用技术指导教师:谭新明20090501武汉理I:人学硕十学位论文摘要深网是相对于表层网而言的,随着互联网信息的不断扩充和加深,越来越多的信息资源通过动态网页技术与数据库技术相结合的方式提供给人们。但是,传统的搜索引擎受技术等各种限制,无法获取在线数据库中的信息,导致大量高价值和权威信息变成“不可见”的深网信息。由于查询接口是进入深网后台数据库的唯一入口,用户只能通过向查询接口提交查询来获取深网信息,所以对查询接口的J下确判断和识别将是获取深网信息

2、的关键所在。围绕着深网查询接口的识别和判断,本文做了以下主要研究工作:首先,对深网相关知识和国内外研究状况进行学习和分析,具体包括深网的概念、价值,以及深网信息的搜索方法等,并提出了本文的研究问题和方向;其次,搜集不同领域的各种表单,对其特征进行DOM解析和提取,并将提取出来的特征保存到数据库中;再次,对原始数据集做预处理操作,包括去除冗余和噪声,属性选择,格式变换,离散化处理等;最后,运用几种典型的分类算法对数据集进行分类和预测,包括决策树C4.5分类算法、支持向量机SVM、k一近邻算法和朴素贝叶斯分类器,在分类和预测过程中,选择了随机

3、取样中的保持法和十折交叉验证法,通过实验结果的分析和比较,选出精确度最高的算法作为判断和识别深网查询接口的算法。在本文结论中,提出了针对深网查询接口所要做的进一步研究工作。对深网的研究虽然还只处于初期阶段,但是,随着人们对深网探索的不断深入,深网研究必将取得更大的突破和收获。关键字:深网,查询接口,DOM解析,决策树C4.5分类算法,十折交叉验证AbstractTheDeepWebisoppositetotheSurfaceWeb.AstheInternetcontinuestoexpandanddeepen,moreandmoreinf

4、ormationareavailabletopeoplethroughthewaywhichunifiesthedynamichomepagetechnologyandthedatabasetechnology·HoweVeT’thetraditionalsearchenginescallnotcrawltheonlinedatabasestoobtaininf6nnationduetotechnicalrestrictionsandotherreasons,alargenumberofhigh.valueinformationinsid

5、etheDeepWebbecomesinvisible.SincethequeryinterfAcesafetheonlyentrancetotheDeepWebdatabases,anduserscanobtaininfbnnationfromtheDeepWebonlybysubmitingqueriestothequeryinte血ces,correctlyjudgeandidentifythequeryinterfacesisveryimportanttoobtaininformationoftheDeepWeb.Surround

6、ingwiththejudgementandidentificationofthequeryinterfaces,thisthesismainlyhasdonethefollowingresearches:Firstly,studytherelatedknowledgeoftheDeepWebandtheresearchsituationathomeandabroad,includingtheconcept、valueandtheinformationsearchmethodsoftheDeepWeb,thengivetheresearc

7、hquestionanddirectionofthisthesis;Secondly,collectavarietyofformsfromdifferentdomains,parsetheformsintoDOMtrees,extractcharacteristicsofeachform,andsavethecharacteristicstoadatabase;Thirdly,makepre.processingoftheprimitivedatasets,includingtheremovalofredundancyandnoise.a

8、ttributeselection,formatconversion'discretlzatlonprocessingandSOon;Finallv,useseveralkindsoftypi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。