lucene对本地文件多目录创建索引

ID：9795116

大小：47.16 KB

页数：14页

时间：2018-05-10

资源描述：

《lucene对本地文件多目录创建索引》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、Lucene对本地文件多目录创建索引http://85600367.iteye.com/blog/849554jar包版本说明：lucene版本2.9（当时是为了和solr1.4一起用，不过换成Lucene3.0的jar包代码是不用修改的）ik分词器版本3.1.6（说起来还是solr，高版本的死活配不上去，汗···）jsoup1.4.1用来解析HTML的工具包很好用。（比htmlparser好用多了呵呵个人意见）参考范围，本文仅限对TXT，HTML，HTM文件的内容创建索引。创建索引的代码如下：Java代码 1

2、.public class IndexJob { 2. public static Date beginTime; 3. 4. //读取TXT文件内容 5. private static String loadFileToString(File file) { 6. try { 7. InputStreamReader isr = new InputStreamReader(new FileInputStream( 8.

3、 file), "UTF-8"); 9. BufferedReader br = new BufferedReader(isr); 10. StringBuffer sb = new StringBuffer(); 11. String line = br.readLine(); 12. while (line != null) { 13. sb.append(line)

4、; 14. line = br.readLine(); 15. } 16. br.close(); 17. return sb.toString(); 18. } catch (IOException e) { 19. e.printStackTrace(); 20. return null; 21. } 22. } 2

5、3. 1. //提取HTML文件的文本内容 2. private static String getDocument(File html) { 3. String text = ""; 4. try { 5. //设置编码集 6.// org.jsoup.nodes.Document doc = Jsoup.parse(html, "UTF-8"); 7. org.jsoup.nodes.

6、Document doc = Jsoup.parse(html,"GBK"); 8. 9. //提取标题信息 10. Elements title = doc.select("title"); 11. for (org.jsoup.nodes.Element link : title) { 12. text += link.text() + " "; 13. } 14.

7、 15. //提取table中的文本信息 16. Elements links = doc.select("table"); 17. for (org.jsoup.nodes.Element link : links) { 18. text += link.text() + " "; 19. } 20. 21. //提取di

8、v中的文本信息 22. Elements divs = doc.select("div[class=post]"); 23. for (org.jsoup.nodes.Element link : divs) { 24. text += link.text() + " "; 25.

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 14



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

lucene对本地文件多目录创建索引

lucene对本地文件多目录创建索引

相关文章

相关标签