哪位朋友知道如何用java实现网络爬虫和搜索引擎的技术,说说原理。最好附上代码。谢谢您们。好的话可以加分。
Heritrix抓取网页
很多网页分析我就不说了,最好自己写。
Lucene指数
首先爬虫需要处理器链,网页的抓取不是几十行代码就能实现的,因为问题很多。
现在。
1.获取网页:判断网页编码、计算网页文本位置、获取网页中的url(URL的过滤、缓存和存储也需要优化线程池)、分配URL、启动线程池。
2.网页的持久性。网页解析,下载网页中的样式表和图片,保存网页(xml和html)并生成网页快照。
3.网页去重去噪:去除无用的网页,如果是垂直搜索引擎,需要更多的判断,可以利用内容模板和空间向量来实现。
4.索引的建立和优化,主要是恢复倒排索引。
你的分类基本上可以通过内容模板和空间向量计算来实现。
还有很多其他的事情,暂时不能细说。你想走多远?(比如:空间向量的算法和结果的参考值,网页内容模板的建立。)