NUTCH

hadoop - 需要像 Apache Nutch 这样没有 Hadoop 的开源爬虫

我需要一个具有url规范器、url过滤器、解析器、礼貌、排除某些url等功能的开源爬虫，但无论如何我所做的并不大。我需要保持更新的只有大约500台主机及其1级外链。我不喜欢通过实现Nutch拥有的所有这些优秀功能来重新发明轮子，同时我不喜欢Hadoop为这个小任务带来的开销。有没有没有Hadoop的Nutch分支？或任何其他具有这些功能的简单爬虫？我不需要任何自适应获取调度、排名等。我只有一个主机列表，我应该使用一台机器获取它们的外链。我更喜欢Nutch的一些分支，因为我有使用它的经验。最佳答案我认为您只需要linux命令wge

爬虫 hadoop section code web-crawler nutch

java - Apache nutch 错误 NoClassDefFoundError "com/google/protobuf/Message"

我将apachenutch2.3与hadoop1.2.1和hbase0.94一起使用。我已经为分布式模式配置了apachenutch。当我运行爬行时，出现以下错误15/12/2112:06:56INFOzookeeper.ClientCnxn:Sessionestablishmentcompleteonservernode1/1.11.1.2:2181,sessionid=0x151ba038ac60250,negotiatedtimeout=180000Exceptioninthread"main"java.lang.NoClassDefFoundError:com/google/p

NoClassDefFoundError amp java apache hadoop nutch

hadoop - 哪个 Linux 发行版最适合 Nutch-Hadoop？

我们正在尝试找出最适合Nutch-Hadoop集成的Linux发行版？。我们计划通过Nutch使用集群来抓取大量内容。如果您需要对此问题进行更多说明，请告诉我？谢谢。最佳答案在这种情况下，任何主要的Linux发行版都没有太大区别。但我会向您推荐一个已准备好hadoop包的程序。我在debian上使用Cloudera的Hadoop发行版，它运行良好。关于hadoop-哪个Linux发行版最适合Nutch-Hadoop？，我们在StackOverflow上找到一个类似的问题：

Nutch-Hadoop 适合 section Hadoop stackoverflow nutch

hadoop - 在 Hortownworks 或 YARN 上集成 Nutch

我正在尝试抓取网络。最好用Nutch。如果开箱即用的Hortownworks支持Nutch，则没有找到引用。有没有专门用HortonworksHDP集成NutchonYARN的？或者有人尝试在Hadoop2.x(YARN)上集成Nutch？提前致谢。最佳答案 HDP2.3不支持开箱即用的Nutch(HDP网站上有一张图表显示支持的服务:HDP2.3What'sNew)。但是它确实支持Nutch所依赖的服务。可以定义自定义Ambari服务并将其添加到HDP2.3堆栈定义中以启用对Nutch的支持。

上集 Hortownworks section Nutch 开箱 hadoop web-crawler hortonworks-data-platform

solr - 如果我们要用Hadoop和Solr做一个搜索引擎，NUTCH的作用是什么？

我想做一个搜索引擎。我想在其中抓取一些网站并将它们的索引和信息存储在Hadoop中。然后使用Solr搜索将完成。但我面临着很多问题。如果通过谷歌搜索，那么不同的人会给出不同的建议和不同的配置方式来设置基于hadoop的搜索引擎。这些是我的一些问题:1)抓取将如何完成？有没有用NUTCH完成爬取的？如果是，那么Hadoop和NUTCH如何相互通信？2)Solr有什么用？如果NUTCH做爬取，把爬取的索引和信息存储到Hadoop中，那么Solr的作用是什么？3)我们可以使用Solr和Nutch来完成搜索吗？如果是，那么他们会将抓取的索引保存在哪里？4)Solr如何与Hadoop通信？5)如

Hadoop NUTCH section 并将 solr

hadoop - hadoop 1.2.1 上的 nutch 1.9 中缺少 org.apache.nutch.crawl.Crawl

我已经安装了完全分布式的Hadoop1.2.1。我试图通过以下步骤集成nutch:下载apache-nutch-1.9-src.zip在nutch-site.xml中添加值http.agent.name复制hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site。xml,masters,slaves进入$NUTCH_HOME/conf使用antruntime编译创建urls/seed.txt并安装hadoopdfs编辑$NUTCH_HOME/conf/regex-urlfilter.txt使用命令测试抓取:bin/hadoop-jarn

hadoop nutch code java

Hadoop 1.2.1 上的 Apache Nutch 1.9 在 jar 文件中没有 Crawl 类

我正在运行一个由五个Cubieboard组成的集群，它们是类似RaspberryPi的ARM板，上面安装了(因为是32位)Hadoop1.2.1。有一个NameNode和四个SlaveNode。在我的期末论文中，我想安装ApacheNutch1.9和Solr来进行大数据分析。我做了这样解释的设置:http://wiki.apache.org/nutch/NutchHadoopTutorial#Deploy_Nutch_to_Multiple_Machines当启动用于在整个集群上部署Nutch的Jar作业文件时，会出现未找到类的异常，因为自nutch1.7以来不再有Crawl类:htt

Hadoop Apache java nutch section web-crawler classnotfoundexception

apache - 在 hadoop 集群上使用 HBase 设置 Nutch 2.2.1

我已引用本教程(http://wiki.apache.org/nutch/Nutch2Tutorial)来设置Nutch2.2.1.withHbase。我已经完成了教程中给出的设置，但是没有明确提到如何爬取数据并将数据存储到Hbase表中。你能给我推荐一些相关的链接/书籍吗？最佳答案对我最有帮助的是:http://sujitpal.blogspot.cz/2011/01/exploring-nutch-20-hbase-storage.html映射到hbase定义在这里NUTCH_HOME/conf/gora-hbase-map

apache hadoop section hbase code web-crawler nutch

logging - 在 hadoop 上运行 nutch，nutch 日志在哪里？

我的nutch在hadoop上运行，想查看nutch运行日志，但找不到独立的nutch日志之类的输出日志。最佳答案如果你在hadoop上运行nutch，会生成每个phase的每个mapper和reducer对应的日志。它的位置是{HADOOP_LOG_DIR}/userlogs//syslog 关于logging-在hadoop上运行nutch，nutch日志在哪里？，我们在StackOverflow上找到一个类似的问题： https://stackove

nutch 志在 section hadoop logging

hadoop - 当集群总共有 5 个节点时，为什么 Nutch 只在一个 Hadoop 节点上运行提取步骤？

我在ElasticMapReduce上运行Nutch，有3个工作节点。我正在使用Nutch1.4，它带有默认配置(在添加用户代理之后)。但是，即使我正在抓取包含30,000个域的列表，抓取步骤也仅从一个工作节点运行，尽管解析步骤在所有三个节点上运行。如何让它从所有三个节点运行提取步骤？*编辑*问题是我需要将mapred.map.tasks属性设置为我的Hadoop集群的大小。您可以找到此文档here 最佳答案默认情况下，nutch根据其主机对url进行分区。nutch-default.xml中对应的属性是:partition.ur

hadoop strong section 射器 nutch elastic-map-reduce

6 7 8910 11 12