构建于lucene之上的可用的Java开源Spider少之又少,spindle长期没有更新且功能不够完善,故而自己参考其源代码重新编写了一个可扩展的WebCrawler,本着开源共享,共同进步的想法发布于此,期冀得到大家的批评指正,有任何意见及建议均可Email联系我(kaninebruno@hotmail.com) 以下代码基于lucene-2.3.1,htmlparser-1.6,je-analysis-1.5.3,以及自己修改过的cpdetector-1.0.5; 下载地址分别为 htmlparser:http://sourceforge.net/project/showfil ...
brunoplum
搜索本博客
最近加入圈子
最新评论