搜索引擎开发课件.ppt

搜索引擎开发课件.ppt

ID:57000687

大小:81.50 KB

页数:33页

时间:2020-07-26

搜索引擎开发课件.ppt_第1页
搜索引擎开发课件.ppt_第2页
搜索引擎开发课件.ppt_第3页
搜索引擎开发课件.ppt_第4页
搜索引擎开发课件.ppt_第5页
资源描述:

《搜索引擎开发课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、搜索引擎开发培训课程提纲FindRealMatter前导知识CoreJava《Java技术手册》编译原理《ModerncompilerimplementationinJava》概率论《应用随机过程:概率模型导论》数据结构《JAVA算法》FindRealMatter了解搜索引擎Google神话.体验搜索引擎把搜索范围限定在网页标题中——intitle.把搜索范围限定在特定站点中——site.把搜索范围限定在url链接中——inurl.做自己的搜索(代码)实现制作索引的功能,实现搜索功能.FindRealMatter遍历搜索引擎技术30分钟实现的搜索引擎.准备工作环境

2、(10分钟).编写代码(15分钟)发布运行(5分钟)实现一个基于WEB结构的搜索引擎。(代码)FindRealMatter网络蜘蛛全文索引结构Nutch网络搜索软件商业搜索引擎技术介绍自己的网络蜘蛛(代码)广度遍历深度遍历正则表达式FindRealMatterBerkeleyDBBerkeleyDB.原理与使用方法B树讲解基本API使用(代码)FindRealMatter抓取技术抓取网页MP3抓取RSS抓取图片抓取垂直行业抓取抓取数据库中的内容抓取本地硬盘上的文件FindRealMatter提取文档中的文本内容从HTML文件中提取文本结构化信息提取网页去噪html

3、parser的基本使用(代码)FindRealMatter正文提取DOM树原理NekoHTML讲解NekoHTML简单应用(代码)NekoHTML用法的深入了解(代码)递归调用方法的使用FindRealMatter从非HTML文件中提取文本TEXT文件PDF文件Word文件Excel文件PowerPoint文件流媒体内容提取FindRealMatter中文分词处理Lucene中的中文分词Lietu中文分词的使用中文分词的原理正向最大匹配(代码)FindRealMatter查找词典算法数字搜索树Tire树Trie树的生成过程(代码)使用Trie树的常规的API(代码

4、)理解Trie树的平衡过程(代码)Trie树的改造以及应用(代码)最佳前驱匹配(代码)语法解析树FindRealMatter隐码模型发射概率概念转移概率概念统计一个词库中的发射概率和转移概(代码)隐码模型的实际应用(代码)FindRealMatter文档排重语义指纹语义指纹的概念语义指纹的实际应用(代码)FindRealMatter中文关键词提取关键词提取的基本方法关键词提取的设计从网页提取关键词关键词提取的实际应用(代码)FindRealMatter拼写检查英文拼写检查中文拼写检查英文拼写检查的实际应用(代码)FindRealMatter自动摘要自动摘要技术自动

5、摘要的设计具体的应用(代码)FindRealMatter自动分类自动分类的接口定义自动分类的SVM方法实现多级分类FindRealMatter自动聚类聚类的定义K均值聚类方法K均值实现FindRealMatter语义搜索准备语义词库把语义词库转换成同义词索引库在SynonymAnalyzer中使用同义词索引库具体的代码解析(代码)JUnit介绍FindRealMatter跨语言搜索简繁转换(代码)FindRealMatterLucene的索引库理解Lucene的索引库结构设计一个简单的索引库(代码)FindRealMatter创建和维护索引库创建索引库向索引库中添

6、加索引文档删除索引库中的索引文档更新索引库中的索引文档索引的合并索引的定时更新索引的备份和恢复(以上部分均有实现代码)FindRealMatter优化使用Lucene索引优化查询优化实现字词混合索引定制Tokenizer查询大容量索引(以上部分均有实现代码)FindRealMatter用户界面设计与实现Lucene搜索接口搜索页面设计用于显示搜索结果的taglib用于搜索结果分页的taglib设计一个简单的搜索页面实现一个日文搜索项目的页面设计(代码)FindRealMatter实现搜索接口布尔搜索指定范围搜索设置过滤条件搜索结果排序搜索页面的索引缓存与更新(以上

7、部分均有实现代码)FindRealMatter关键词高亮显示结合以前学习的内容学会使用highlighter包(代码)理解其包中基本类的使用实际应用FindRealMatter实现多维视图及相关搜索实现多维视图bitsSet介绍计算机中进制转换和位移介绍MoreLikeThis的具体使用(以上部分均有实现代码)FindRealMatter实现AJAX自动完成用AJAX技术设计搜索页面(代码)FindRealMatter用Solr实现分布式搜索Solr服务器端的配置与中文支持把数据放进Solr从Solr删除数据SolrJ客户端搜索界面Solr搜索结果优化Solr的.

8、net客户

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。