首页 | 网站地图 | RSS订阅 | 高级搜索 | 收藏本站
默认搜索       热门关键字: lucene  nutch  eee  sdD  dad
Google广告位置
Google AD
当前位置:搜索引擎>Nutch> 正文

  • nutch入门教程
  • 日期:2007-10-21   点击:   作者:   来源:http://blog.csdn.net/liyang23456/archive/2007/10/1   字体:[ ]
nutch简介
1.1   什么是nutch
1.2   研究nutch的原因
1.3   nutch的目标
1.4   nutch VS lucene
2.         nutch的安装与配置
2.1   JDK的安装与配置
2.2   nutch的安装与配置
2.3   tomcat的安装与配置
3.         nutch初体验
3.1   爬行企业内部网
3.1.1          配置nutch
3.1.2          配置tomcat
3.1.3          执行抓取结果
3.1.4          测试结果
3.1.5          Intranet Recrawl
3.2   爬行全网
3.2.1          nutch数据集的基本组成
3.2.2          爬行“官方”网址
3.2.3          爬行中文网址
4.         nutch基本原理分析
4.1   nutch的基本组成
4.2   nutch工作流程
5.         nutch工作流程分析
5.1   爬虫
5.1.1          工作策略
5.1.2          工作流程分析
5.1.3          其它
5.2   索引
5.2.1          索引主要过程
5.2.2          工作流程分析
5.2.3          倒排索引
5.2.4          其它
5.3   搜索
5.4   分析
5.5   nutch的其他一些特性
6.         nutch分析方法和工具
6.1   Crawldb
6.2   Linkdb
6.3   Segments
6.4   Index
7.         nutch分布式文件系统
7.1   概述
7.2   MapReduce
7.3   文件系统语法
7.4   文件系统设计
7.5   系统的可用性
7.6   Nutch文件系统工作架构
8.         nutch应用
8.1   修改源码
8.2   插件机制---plugin
8.2.1          什么是plugin
8.2.2          使用plugin的好处
8.2.3          Plugin工作原理
8.2.4          编写plugin
8.3   API接口
8.3.1          使用NutchAPI
8.3.2          使用OpenSearchAPI
8.4   Nutch的应用前景
附录一: nutch的相关网站
附录二: 参考文献
 
文章下载地址(pdf版):http://download.csdn.net/source/263539


所有评论 关闭窗口↓ 打印本页 论坛讨论 返回列表
用户名: 新注册) 密码: 匿名评论 [所有评论]

评论内容:(不能超过250字,请自觉遵守互联网相关政策法规。

最新评论: