pde档案信息全文检索系统技术体系说明new

pde档案信息全文检索系统技术体系说明new

ID:19630195

大小:117.00 KB

页数:9页

时间:2018-10-04

pde档案信息全文检索系统技术体系说明new_第1页
pde档案信息全文检索系统技术体系说明new_第2页
pde档案信息全文检索系统技术体系说明new_第3页
pde档案信息全文检索系统技术体系说明new_第4页
pde档案信息全文检索系统技术体系说明new_第5页
资源描述:

《pde档案信息全文检索系统技术体系说明new》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、PDE档案信息全文检索系统技术体系说明一、需求场景分析需求场景文件类型.html/htm/txt/pdf/MSOffice索引源1.站内目录2.URL资源查询需求功能:1.中文单字检索2.英文单词检索3.中文二分词、三分词、四分词精确检索4.支持在结果中查询显示1.突出显示查询关键字2.显示结果数、搜索用时、页数、页码链接、上下页3.显示标题、关键字上下文、链接4.在结果中打开站内文件突出显示关键字1.查询需求功能ü中文单字检索:把汉字关键词分割为单字,以单字为最小检索单位,如您好分为:您、好ü英文单词检索

2、:英文以单词为最小检索单位ü中文二分词、三分词、四分词精确检索:对于两个、三个、四个汉字组成的关键词进行精确检索,五个以上汉字组成的关键词作二二分割,如“振兴中华民族”分割为:振兴、兴中、中华、华民、民族,再进行精确检索ü根据场景对关键字、词根据上述规则进行智能搭配后检索:如“use我爱你tools”分割为:use、tools、我爱、爱你ü支持在结果中查询显示ü突出显示查询关键字:在结果显示页的标题、上下文摘要中用红色和加粗显示关键字、词ü显示结果数、搜索用时、页数、页码链接、上下页:及时显示直接查询或在结

3、果中再查的准确结果数量、即时查询的用时、总页数,并以当前页为中心显示前后5页的页码链接及智能显示上一页、下一页链接ü显示标题、关键字上下文、链接:显示查询结果的标题、以关键词为中心的上下文及精确定位后的URL链接ü在结果中打开站内文件突出显示关键字:通过URL链接打开站内html/htm/txt文件后用红色和加粗显示关键字、词1.索引源站内目录Ø本地站内目录(能用http://localhost:port/*访问的包含html/htm/txt/pdf/MSOffice文件资源的目录)Ø安装在同一服务器的其他

4、Web资源目录(如IIS资源)URL资源ØURL地址存放在SqlServer数据库的URL资源,根据表中的记录对URL资源进行索引,并取回标题、责任者和成文日期字段Ø智能区分特定的单表记录或复表记录资源2.文件类型Ø能索引html/htm/txt/pdf/MSOffice类型的文档二、架构设计用户界面查询索引查询首页:index.html显示查询结果:Search显示一个文件:Show管理员登录:login.html系统配置:Config数据库资源配置:res/系统环境环境初始化文件:index.ini环境

5、构造器:Confindex.ini编辑:SaveConfHtokSearch关键字分析器结果内容分析器返回结果数组Lucene-cn.jar检索引擎索引引擎WebEasyXML引擎URL数据库展示:res/索引接口定时器:HtokIndex接口:IndexURL分析:IndexResPDF文档分析引擎PDF接口:LucenePDFDocumentPDF分析引擎:PDFBox*.jarHTML文本剥离器文本索引接口FileDocument目录分析/文件类型识别全额索引:indexFiles追加索引:AddIn

6、dexFilesWebEasyDB引擎:/resURL追加索引:AddIndexURLsMSOffice文档转换引擎转换接口:LuceneMSOfficeOOO服务器:localhost:8100三、程序代码设计1、系统环境环境初始化文件:index.ini位置在系统类目录search/WEB-INF/classes下的tools.search包中,为系统的正常运行提供基本环境变量,参数信息如下表参数名称参数值(参考)说明rootsc:/search/infos/22=/search/servlet/Sho

7、w/infos/22索引源中的站内目录,“=”号后的值表示打开该目录下的文件时用的URL路径。多目录时用“,”号分开indexPathc:/search/indexpath索引库存放的目录timing11:00:00定时启动索引UserNameadmin管理员用户名Passwordpde管理员密码urlshttp://127.0.0.1/search=http://localhost/search/servlet/Show打开查找的URL资源时用“=”后面的路径替换前面的路径,用于实现关键字着重显示环境构造

8、器:Conf类从上面的index.ini文件中构造了基本环境变量对象,代码说明如下位置(行)类型功能11到17语句定义基本环境变量19到58构造函数从index.ini文件中读取信息,并根据标志进行分析,把对应的值分别赋于变量,实现配置对象的构造60到119函数和方法通过JavaBean中常用的“set”方法和“get”函数对变量进行读写121到161函数把对象中的变量值按格式写回index.ini文件index

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。