哪位朋友知道如何用java实现网络爬虫和搜索引擎的技术,说说原理。最好附上代码。谢谢您们。好的话可以加分。

Heritrix抓取网页

很多网页分析我就不说了,最好自己写。

Lucene指数

首先爬虫需要处理器链,网页的抓取不是几十行代码就能实现的,因为问题很多。

现在。

1.获取网页:判断网页编码、计算网页文本位置、获取网页中的url(URL的过滤、缓存和存储也需要优化线程池)、分配URL、启动线程池。

2.网页的持久性。网页解析,下载网页中的样式表和图片,保存网页(xml和html)并生成网页快照。

3.网页去重去噪:去除无用的网页,如果是垂直搜索引擎,需要更多的判断,可以利用内容模板和空间向量来实现。

4.索引的建立和优化,主要是恢复倒排索引。

你的分类基本上可以通过内容模板和空间向量计算来实现。

还有很多其他的事情,暂时不能细说。你想走多远?(比如:空间向量的算法和结果的参考值,网页内容模板的建立。)