欢迎来到天天文库
浏览记录
ID:32751885
大小:8.64 MB
页数:83页
时间:2019-02-15
《基于中文分词技术网络经营行为监管系统的分析和的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、浙江工业大学硕士学位论文基于中文分词技术的网络经营行为监管系统分析与研究摘要近年来网络经济日益增长,交易规模日趋庞大,网络已成为了人们自由交流的便捷工具。但是,这种开放性也使网络存在着很大的负面效应,如各种色情、迷信、反动、暴力和其他非法信息的传播,或者内部局域网中保密信息的泄漏,这些都己成为人们日益关注的焦点问题。而传统的过滤技术,如基于IP地址的过滤、基于关键字的过滤等,已难以有效地解决这些问题。本文首先对中文分词技术进行了分析研究,并对网络信息内容进行了安全分析,针对工商网络巡查的工作特点,探索能检索出网络非法经营行为的信息的检索工具。本文对目前的web内容搜索方法做
2、了分类研究,提出了一种根据工商行政管理工作特点的中文分词改进算法。该算法以最短路径匹配法为基础,以排除歧义为主要改进目标,同时兼顾分词速度,进行了改进。首先,根据工商行政机构在流通领域中网络经营行为的过滤需求,从用户预先收集的训练样本中提取出信息特征,调整词典的结构,然后对搜索引擎中的关键字段进行匹配,增加若干分词规则对待测文本进行分析并分类过滤,同时根据分词长短自动调整匹配环境。对选自互联网的主题网页的实验测试显示,文中提出的算法能够较好地实现对网页中不良网页的搜索功能,实现了对特定信息安全过滤的效果。关键词:中文分词技术;安全监管;工商网络巡查;过滤算法;分词规则浙江工
3、业大学硕士学位论文基于中文分词技术的网络经营行为监管系统分析与研究AnalysisandStudyonSupervisionSystemofCommerceNetworkBasedonCWSTechologiesAbstractTheopennessandthegrowingsizeoftheInteractmakesitpossibleforpeopletoexchangeinformationfreely.MeanwhilethisopennessgivesrisetosubtantialnegativeeffectsoftheIntemet,suchasthetran
4、smittionofsuperstition,pornography,violence,rebellionandotherillegalorharmfulinformation,thedisclosureofintranetinformation,whichhasbecomethefocusofpeople’Sattention.BasedonkeywordsorIPaddressfiltering,thetraditionalfilteringtechnologycannotsolvetheseproblemseffectively.ThispaperstudiesChi
5、nesewordsegmentation(cws)technologies,analyzesthesafetyofInternetinformation,inaccordance、析tllthefeaturesofindustryandcommercenetworksearch,aimstofmdtheinformationretrievaltoolappliedtoillegalbusinessonline.ThispaperdiscussesthepresentWebcontentsearchmethods,basedontheWebpageautomaticclass
6、ification,proposesanimprovedChinesewordsegmentationalgorithminaccordancewiththecharacteristicsofindustryandcommerceadministration.Witheductionambiguityasitsmainimprovementgoal,thisalgorithmisbased011theshortestpathmatchingmethod,thespeedofwordsegmentationistakenintoconsiderationaswell.Firs
7、t,accordingtothefilteringrequirementsofinternetbusinessinfieldofcirculationinline谢吐ltheindustryandcommerceadministrativeagencies,extracttheinformationfeaturesfromthecollectedtrainingsamples,adjustthestructureofthedictionary,matchthekeywordsfromsearchengines,ad
此文档下载收益归作者所有