[it╱计算机]对搜索引擎的初步了解--lucene和nutch

ID：12754831

大小：161.50 KB

页数：46页

时间：2018-07-18

资源描述：

《[it╱计算机]对搜索引擎的初步了解--lucene和nutch》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、搜索引擎(lucene、nutch)实例一简单抓取单一页面所有邮箱地址代码。（Java网络编程与正则表达式）packageTestWWW;importjava.io.BufferedReader;importjava.io.DataInputStream;importjava.io.IOException;importjava.io.InputStreamReader;importjava.net.MalformedURLException;importjava.net.URL;importjava.net.URLConnection;importjava

2、.util.regex.Matcher;importjava.util.regex.Pattern;publicclassConnectionTest{publicstaticvoidmain(String[]args){try{URLsina=newURL("http://www.sina.com.cn");URLConnectionsinaConnection=sina.openConnection();BufferedReaderbr=newBufferedReader(newInputStreamReader(sinaConnection.getI

3、nputStream()));Stringstr="";while((str=br.readLine())!=null){//System.out.println(str);parse(str);}System.out.println("测试结束");br.close();}catch(MalformedURLExceptione){e.printStackTrace();}catch(IOExceptione){e.printStackTrace();}}privatestaticvoidparse(Stringstr){Patternp=Pattern

4、.compile("[\w[.-]]+@[\w[.-]]+\.[\w]+");//Patternp=Pattern.compile("\u005B.+<.+a>");//Patternp=Pattern.compile(".*?通知书.*<.+a>");//先吞到.*再与全部匹配//Patternp=Pattern.compile(".*<.+a>");Matcherm=p.matcher(str);//独占的全吃不吐出，再读后面的while(m.find()){System.out

5、.println(m.group());}}}publicstaticvoidmain(String[]args){try{URLsina=newURL("http://www.sina.com.cn");URLConnectionsinaConnection=sina.openConnection();BufferedReaderbr=newBufferedReader(newInputStreamReader(sinaConnection.getInputStream()));Stringstr="";while((str=br.readLine())

6、!=null){//System.out.println(str);parse(str);}System.out.println("测试结束");br.close();}catch(MalformedURLExceptione){e.printStackTrace();}catch(IOExceptione){e.printStackTrace();}}privatestaticvoidparse(Stringstr){Patternp=Pattern.compile("[\w[.-]]+@[\w[.-]]+\.[\w]+");Matcherm=p

7、.matcher(str);//独占的全吃不吐出，再读后面的while(m.find()){System.out.println(m.group());}一、搜索引擎原理用户用户用户检索入口google百度结果排序网页索引网页分析网页抓取互联网搜索引擎技术框架图1.1网页抓取技术在互联网海量信息中发现并搜索多种类型的文档内容。如html,xml,ppt,word,pdf,多媒体信息等。即网络爬虫。http解析网页http下载请求http页面应答网页信息抓取软件原理图1.1.1深度优先依次访问下一级网页链接，直到不能再深入为止。适合专业化的垂直搜索。1.1.

8、2广度优先按照目录层次较浅的网页内容先搜索的方法。访问完一层再访问

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 46



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

[it╱计算机]对搜索引擎的初步了解--lucene和nutch

[it╱计算机]对搜索引擎的初步了解--lucene和nutch

相关文章

相关标签