lucene对本地文件多目录创建索引

lucene对本地文件多目录创建索引

ID:9795116

大小:47.16 KB

页数:14页

时间:2018-05-10

lucene对本地文件多目录创建索引_第1页
lucene对本地文件多目录创建索引_第2页
lucene对本地文件多目录创建索引_第3页
lucene对本地文件多目录创建索引_第4页
lucene对本地文件多目录创建索引_第5页
资源描述:

《lucene对本地文件多目录创建索引》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、Lucene对本地文件多目录创建索引http://85600367.iteye.com/blog/849554jar包版本说明:lucene版本2.9(当时是为了和solr1.4一起用,不过换成Lucene3.0的jar包代码是不用修改的)ik分词器版本3.1.6(说起来还是solr,高版本的死活配不上去,汗···)jsoup1.4.1用来解析HTML的工具包很好用。(比htmlparser好用多了呵呵个人意见)参考范围,本文仅限对TXT,HTML,HTM文件的内容创建索引。创建索引的代码如下:Java代码 1

2、.public class IndexJob {  2.    public static Date beginTime;  3.  4.    //读取TXT文件内容  5.    private static String loadFileToString(File file) {  6.        try {  7.            InputStreamReader isr = new InputStreamReader(new FileInputStream(  8.            

3、        file), "UTF-8");  9.            BufferedReader br = new BufferedReader(isr);  10.            StringBuffer sb = new StringBuffer();  11.            String line = br.readLine();  12.            while (line != null) {  13.                sb.append(line)

4、;  14.                line = br.readLine();  15.            }  16.            br.close();  17.            return sb.toString();  18.        } catch (IOException e) {  19.            e.printStackTrace();  20.            return null;  21.        }  22.    }  2

5、3.      1.    //提取HTML文件的文本内容  2.    private static String getDocument(File html) {  3.        String text = "";  4.        try {  5.            //设置编码集  6.//          org.jsoup.nodes.Document doc = Jsoup.parse(html, "UTF-8");  7.            org.jsoup.nodes.

6、Document doc = Jsoup.parse(html,"GBK");  8.  9.            //提取标题信息  10.            Elements title = doc.select("title");  11.            for (org.jsoup.nodes.Element link : title) {  12.                text += link.text() + " ";  13.            }  14.      

7、        15.            //提取table中的文本信息  16.            Elements links = doc.select("table");  17.            for (org.jsoup.nodes.Element link : links) {  18.                text += link.text() + " ";  19.            }  20.              21.            //提取di

8、v中的文本信息  22.            Elements divs = doc.select("div[class=post]");  23.            for (org.jsoup.nodes.Element link : divs) {  24.                text += link.text() + " ";  25.            

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。