基于词频统计的wap分类器设计与实现

基于词频统计的wap分类器设计与实现

ID:40675815

大小:206.00 KB

页数:6页

时间:2019-08-06

基于词频统计的wap分类器设计与实现_第1页
基于词频统计的wap分类器设计与实现_第2页
基于词频统计的wap分类器设计与实现_第3页
基于词频统计的wap分类器设计与实现_第4页
基于词频统计的wap分类器设计与实现_第5页
资源描述:

《基于词频统计的wap分类器设计与实现》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、基于词频统计的wap分类器设计与实现靳相伟,戴志涛**(北京邮电大学计算机学院,北京100876)510152025303540摘要:移动互联网时代的到来给人们上网带来了方便,但同时由于互联网信息的多样性,人们搜索信息时往往会遇到返回的都是一些广告信息,或者是一些与自己搜索毫无关系的信息,甚至是一些不良信息。为了增强wap用户搜索体验,本文基于词频和支持向量机模型实现了一款wap资源分类器,完成了游戏、软件、视频、音频、图片、主题六大类的分类,最后通过实验结果分析验证,该分类器分类准确率在90%以上

2、,召回率在80%以上,通过本文的wap资源分类器大大提高了用户的搜索体验。关键词:wap;分类器;SVM;机器学习中图分类号:TP391.1DesignandImplementationofwapclassifierbasedonwordfrequencystatisticsJINXiangwei,DAIZhitao(ComputerScienceSchool,BeijingUniversityofPostsandTelecommunications,Beijing100876)Abstract:The

3、arrivalofthemobileInterneterahasbroughttousconvenient,butatthesametimeduetothediversityofinformationontheInternet,peoplesearchforinformationisoftendespairbecauseofthatthesearchresultoftenhastheadvertisinginformation,orthereisnothinginformationcoulduse,ev

4、entherewouldbesomebadinformation.Toenhancewapuserssearchexperience,awapresourcesclassifierwhichisbasedonwordfrequencyandsupportvectormachinemodelhascompletedinthispaper.Itcompletetheclassificationofthegamesoftware,video,audio,images,themes,andtheaccuracy

5、rateofthiswapclassifierismorethan90%,therecallofthiswapclassifierismorethan80%.Thewapresourceclassificationhasgreatlyimprovedthesearchexperiencefortheusers.Keywords:wap;classifier;SVM;machinelearning0引言随着嵌入式设备和移动互联网的发展,人们越来越倾向于使用手机等手持设备登陆互联网,浏览网页,查找资料等。互

6、联网上充斥着各种各样的信息,有些是垃圾信息,有些是广告信息,更有些是不良信息,这些信息已经影响到了用户的体验,给用户带来了不悦。同时为了节省流量用户比较偏爱登陆wap网站,为了提高用户用手持设备登陆wap互联网搜索的体验,需要设计wap资源分类器,通过wap资源分类器将wap网页分类入库,在用户输入查询条件时,可以返回相关度比较高的结果,以增加用户体验。目前研究比较多的是基于web网页的分类[1],但随着移动互联网的发展,wap网页分类也越来越受到重视。本文设计并实现了一款wap资源分类器,将wap网页

7、分为了游戏、音乐、视频、主题、游戏、图像六大类。从选取网页特征,到数学建模,训练模型,最后编码实现网页分类器,并进行实验验证,实验结果显示,该分类器无论是从准确率还是在召回率上看,对提高用户搜索体验,提供了重要的帮助。作者简介:靳相伟,(1988-),男,硕士研究生,主要研究方向:嵌入式与网络通信;计算机体系结构。通信联系人:戴志涛,(1969-),男,北京邮电大学计算机科学与技术学院体系结构中心教授,硕士生导师,主要研究方向:嵌入式系统;宽带通信;计算机体系结构;可重构计算。E-mail:daizt@

8、soline.cn-1-1wap资源分类的整体设计方案1.1wap资源分类在搜索中的位置Wap资源分类器在搜索引擎的整个流程中处在很关键的位置,首先通过爬虫获取大量网页数据,选取其中比较有代表性的进行人工标注,对人工标注的页面进行分析提取出wap4550网页的特征值,建立特征向量表,设计wap分类程序。将最终通过分类的wap网页建立索引,入库。客户端通过手持设备进入移动互联网,搜索网页,经过核心词分析,查找库中的索引,查找成功返回结果给

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。