欢迎来到天天文库
浏览记录
ID:9795116
大小:47.16 KB
页数:14页
时间:2018-05-10
《lucene对本地文件多目录创建索引》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、Lucene对本地文件多目录创建索引http://85600367.iteye.com/blog/849554jar包版本说明:lucene版本2.9(当时是为了和solr1.4一起用,不过换成Lucene3.0的jar包代码是不用修改的)ik分词器版本3.1.6(说起来还是solr,高版本的死活配不上去,汗···)jsoup1.4.1用来解析HTML的工具包很好用。(比htmlparser好用多了呵呵个人意见)参考范围,本文仅限对TXT,HTML,HTM文件的内容创建索引。创建索引的代码如下:Java代码 1
2、.public class IndexJob { 2. public static Date beginTime; 3. 4. //读取TXT文件内容 5. private static String loadFileToString(File file) { 6. try { 7. InputStreamReader isr = new InputStreamReader(new FileInputStream( 8.
3、 file), "UTF-8"); 9. BufferedReader br = new BufferedReader(isr); 10. StringBuffer sb = new StringBuffer(); 11. String line = br.readLine(); 12. while (line != null) { 13. sb.append(line)
4、; 14. line = br.readLine(); 15. } 16. br.close(); 17. return sb.toString(); 18. } catch (IOException e) { 19. e.printStackTrace(); 20. return null; 21. } 22. } 2
5、3. 1. //提取HTML文件的文本内容 2. private static String getDocument(File html) { 3. String text = ""; 4. try { 5. //设置编码集 6.// org.jsoup.nodes.Document doc = Jsoup.parse(html, "UTF-8"); 7. org.jsoup.nodes.
6、Document doc = Jsoup.parse(html,"GBK"); 8. 9. //提取标题信息 10. Elements title = doc.select("title"); 11. for (org.jsoup.nodes.Element link : title) { 12. text += link.text() + " "; 13. } 14.
7、 15. //提取table中的文本信息 16. Elements links = doc.select("table"); 17. for (org.jsoup.nodes.Element link : links) { 18. text += link.text() + " "; 19. } 20. 21. //提取di
8、v中的文本信息 22. Elements divs = doc.select("div[class=post]"); 23. for (org.jsoup.nodes.Element link : divs) { 24. text += link.text() + " "; 25.
此文档下载收益归作者所有