小型搜索引擎设计及实现v1.1.ppt

小型搜索引擎设计及实现v1.1.ppt

ID:48134482

大小:7.05 MB

页数:47页

时间:2020-01-17

小型搜索引擎设计及实现v1.1.ppt_第1页
小型搜索引擎设计及实现v1.1.ppt_第2页
小型搜索引擎设计及实现v1.1.ppt_第3页
小型搜索引擎设计及实现v1.1.ppt_第4页
小型搜索引擎设计及实现v1.1.ppt_第5页
资源描述:

《小型搜索引擎设计及实现v1.1.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、小型搜索引擎设计及实现信息系统建模课程项目彭祯卫罡薛鲁国柳俊全何浩01数据采集与预处理02系统模型设计及构建03系统实现与可视化目录CONTENTS课程项目要求一个至少能支持10个以上网站的爬虫程序,且支持增量式数据采集;并至少采集10000个实际网页;针对采集回来的网页内容,能够实现网页文本的分类;可进行重复或冗余网页的去重过滤;对经去冗以后的内容建立倒排索引;采用PageRank算法、HITS算法、SALSA算法或其他你认为合适的算法,实现搜索结果的排序;支持自然语言的模糊检索;可实现搜索结果的可视化呈现。可以在线记录每次检索的日志,并可对日志数据进行统计分析和关联挖掘。数据采集与预处理

2、系统模型设计及构建系统实现与可视化项目具体分工组长:卫罡,系统前端组员:薛鲁国,系统后台:数据采集及预处理,话题发现彭祯,系统后台:elasticsearch,柳俊全,系统前端,系统文档,何浩,系统后台:PageRank,01数据采集与预处理123构建数据采集模型设计数据存储格式预处理数据并存储主要工作1.1构建数据采集模型Spider抓取系统URL存储系统URL选取系统DNS解析服务系统抓取调度系统网页分析系统URL提取系统URL分析系统网页存储系统包含8大子系统1.1构建数据采集模型Scrapy基本框架1.ScrapyEngine从Scheduler中取出一个URL用于接下来的抓取;2.

3、ScrapyEngine把URL封装成一个Request传给Downloader;3.Downloader下载资源,并封装成Response;4.Spiders解析Response;5.解析出Item,交给Pipeline进行下一步处理;6.解析出URL,把URL交给Scheduler等待抓取。1.1构建数据采集模型数据采集两种方式累积式采集:从某一个时间点开始,通过遍历的方式抓取系统所能允许存储和处理的所有网页。经过足够时间,该策略可以保证抓取到相当规模的网页集合。由于web数据的动态性,累积式抓取到的网页集合事实上并无法与真实环境中的网络数据保持一致。增量式采集:在一定量规模的网络页面集

4、合的基础上,采用更新数据的方式选取已有集合中的过时网页进行抓取,保证所抓取到的数据与真实网络数据足够接近。累积式爬取一般用于数据集合的整体建立或大规模更新,增量式采集则主要针对数据集合的日常维护与及时更新。1.1构建数据采集模型增量式数据采集使用MongoDB数据库记录每个爬虫爬取到的新闻的最大时间根据每个新闻网站的更新频率设置爬虫爬取时间间隔,爬取更新的新闻后台持续运行爬虫程序使用布隆过滤器(BloomFilter)去掉重复的URL(BloomFilter保存上一次爬取的数据,根据增量规则对保存的状态数据进行约束,从时间和空间上提升性能)1.1构建数据采集模型十大站点爬取网页数据量:3万+

5、1.1构建数据采集模型九大类别ID类别含义1politics政治新闻2world国际新闻3finance财经新闻4tw台湾新闻5military军事新闻6society社会新闻7edu教育新闻8sports体育新闻9culture文化新闻1.2设计数据存储格式爬取字段名称爬取字段含义Title新闻标题URL新闻链接Website新闻站点Type新闻类别Content新闻文本Releasing发布时间Crawling抓取时间Image新闻图片Links网页包含的其它URL1.3数据预处理并存储数据预处理提取关键词(建立DocView模型)消除重复或冗余网页(根据向量模型计算余弦相似度)链接分析

6、(应用TF-IDF统计方法,提取文本特征,进行文本分类)计算网页重要程度(“被引用得最多的就是最重要的”,PageRank算法)1.3数据预处理并存储02系统模型设计及构建系统模型设计及构建TextGrocery分类工具Elasticsearch全文检索网页文本分类TF-IDF网页去重过滤PageRank网页排序模糊检索话题发现2.1网页文本分类Step1预处理Step2中文分词Step3结构化表示Step4TF-IDF策略Step5SVM分类器Step6TextGrocery分类工具123456得到训练集语料库得到测试集语料库基于概率图模型的条件随机场(CRF)Jieba分词法构建词向量空

7、间模型构建TF-IDF词向量空间生成权重矩阵二类分模型,特定空间上间隔最大的线性分类器基于LibLinear和结巴分词2.1网页文本分类文本特征提取TF-IDF词频-逆文件频率,是一种用于资讯检索与资讯探勘的常用加权技术。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF,某一个给定的词语在该文本中出现的次数。IDF,包含某一词条文档越少,则IDF越大,该词条具

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。