构建于lucene之上的可用的Java开源Spider少之又少,spindle长期没有更新且功能不够完善,故而自己参考其源代码重新编写了一个可扩展的WebCrawler,本着开源共享,共同进步的想法发布于此,期冀得到大家的批评指正,有任何意见及建议均可Email联系我(kaninebruno@hotmail.com)
以下代码基于lucene-2.3.1,htmlparser-1.6,je-analysis-1.5.3,以及自己修改过的cpdetector-1.0.5;
下载地址分别为
htmlparser:http://sourceforge.net/project/showfil ...
- 浏览: 178 次
- 性别:

- 来自: 上海

- 详细资料
搜索本博客
最近加入圈子
最新评论
-
基于Spindle的增强HTTP S ...
长期关注,并测试。。希望楼主不断更新!
-- by akululu -
基于Spindle的增强HTTP S ...
今天把进一步完善的版本放上来,主要变动是添加了将页面抓取保存到本地的功能,另外加 ...
-- by brunoplum -
基于Spindle的增强HTTP S ...
lib.rar我下不下来
-- by chencang -
基于Spindle的增强HTTP S ...
(1)不能抓获https协议的网站; (2)缺少异常日志; (3)SiteCap ...
-- by sovolee -
基于Spindle的增强HTTP S ...
很好,期待很久了。
-- by sovolee






评论排行榜