- [Nutch]nutch入门教程
- [Nutch]Lucene(Nutch)距离商业文本搜索引擎
- [Nutch]从"nutch 目錄"想到的
- [Nutch]转:nutch hadoop 教程
- [Nutch]Nutchs parse-zip plugin的问题
- [Nutch]Nutch中creativecommons插件的分析
- [Nutch]为Nutch添加中文分词插件
- [Nutch]Nutch0.9分词研究
- [Nutch]Nutch 0.8笔记--分布式式的搜索引擎
- [Nutch]Windows 下运行Nutch批处理脚本
- [Nutch]nutch的配置文件
- [Nutch]GettingNutchRunningWithWindows
- [Nutch]nutch0.9中的摘要提取机制源码分析
- [Nutch]Nutch0.9的安装部署
- [Nutch]Nutch0.9的安装部署
- [Nutch]NUTCH学习
- [Nutch]Nutch搜索引擎分析
- [Nutch]Yahoo and uni team up on distribut
- [Nutch]Hadoop是一个类似于Google构架的开源
- [Nutch]nutch入门教程
- [Nutch]nutch's t-shirt,cap
- [Nutch]Crawl the Nutch -- Map Reduce
- [Nutch]Lucene(Nutch)距离商业文本搜索引擎
- [Nutch]nutch插件加载机制
- [Nutch]Spirit+lucene+nutch
- [Nutch]从"nutch 目錄"想到的
- [Nutch]转:nutch hadoop 教程
- [Nutch]Nutchs parse-zip plugin的问题
- [Nutch]Nutch中creativecommons插件的分析
- [Nutch]为Nutch添加中文分词插件
- [Nutch]NUTCH学习
- [Nutch]Nutch搜索引擎分析
- [Nutch]Yahoo and uni team up on distribut
- [Nutch]Hadoop是一个类似于Google构架的开源
- [Nutch]nutch入门教程
- [Nutch]nutch's t-shirt,cap
- [Nutch]Crawl the Nutch -- Map Reduce
- [Nutch]Lucene(Nutch)距离商业文本搜索引擎
- [Nutch]nutch插件加载机制
- [Nutch]Spirit+lucene+nutch
- [Nutch]从"nutch 目錄"想到的
- [Nutch]转:nutch hadoop 教程
- [Nutch]Nutchs parse-zip plugin的问题
- [Nutch]Nutch中creativecommons插件的分析
- [Nutch]为Nutch添加中文分词插件
- Google广告位置
- Google AD
网上有好多的Nutch使用的文章,但其实只是几篇文章翻来覆去的拷贝而已!
很经典,讲了nutch与lucene 以及其他一些爬虫的比较。和建立一个抓取企业内部网(Intranet crawling)实例。但是可能是版本的问题。其中少了关键的一步。
这里是官方的那个文档,补全了少的那一步。
否则出现后果为
Fetcher: segment: info/segments/20061207221006
Fetcher: threads: 4
fetching http://student.ustb.edu.cn/
fetch of http://student.ustb.edu.cn/ failed with: java.lang.NullPointerException
Fetcher: do
看这个一可以解决问题
http://lucene.apache.org/nutch/tutorial8.html
讲了一些nutch全网crawl的东西,其实这些都可以在nutch的wiki里找到!就是那里是英文,不太舒服!这个文章挺不错得!
主要是说Cygwin的安装,Cygwin是个挺好的东西,建议大家即使不用Nutch也装一个,因为用bash确实很爽!
5。nutch中文分词
http://www.rxiao.com/blog/article.asp?id=138
基本上是和Nutch 初体验之二一样的内容。
7.试用nutch
http://hedong.3322.org/archives/000247.html
这个太老了,好像多不太适用了。
8。Nutch9.0 的lucene好像有问题,要重新编译,本人没有测试。
个人观点:结合我的项目这个东西不适合我。理由是:
nutch是一个完整的搜索引擎,但是它只是一个搜索引擎他可以订制的东西太少!例如加中文分词好像要改动源文件,这样做对以后的升级维护都是麻烦。
最新评论:
