草庐IT

java - Apache nutch 错误 NoClassDefFoundError "com/google/protobuf/Message"

我将apachenutch2.3与hadoop1.2.1和hbase0.94一起使用。我已经为分布式模式配置了apachenutch。当我运行爬行时,出现以下错误15/12/2112:06:56INFOzookeeper.ClientCnxn:Sessionestablishmentcompleteonservernode1/1.11.1.2:2181,sessionid=0x151ba038ac60250,negotiatedtimeout=180000Exceptioninthread"main"java.lang.NoClassDefFoundError:com/google/p

hadoop - 哪个 Linux 发行版最适合 Nutch-Hadoop?

我们正在尝试找出最适合Nutch-Hadoop集成的Linux发行版?。我们计划通过Nutch使用集群来抓取大量内容。如果您需要对此问题进行更多说明,请告诉我?谢谢。 最佳答案 在这种情况下,任何主要的Linux发行版都没有太大区别。但我会向您推荐一个已准备好hadoop包的程序。我在debian上使用Cloudera的Hadoop发行版,它运行良好。 关于hadoop-哪个Linux发行版最适合Nutch-Hadoop?,我们在StackOverflow上找到一个类似的问题:

hadoop - 在 Hortownworks 或 YARN 上集成 Nutch

我正在尝试抓取网络。最好用Nutch。如果开箱即用的Hortownworks支持Nutch,则没有找到引用。有没有专门用HortonworksHDP集成NutchonYARN的?或者有人尝试在Hadoop2.x(YARN)上集成Nutch?提前致谢。 最佳答案 HDP2.3不支持开箱即用的Nutch(HDP网站上有一张图表显示支持的服务:HDP2.3What'sNew)。但是它确实支持Nutch所依赖的服务。可以定义自定义Ambari服务并将其添加到HDP2.3堆栈定义中以启用对Nutch的支持。

solr - 如果我们要用Hadoop和Solr做一个搜索引擎,NUTCH的作用是什么?

我想做一个搜索引擎。我想在其中抓取一些网站并将它们的索引和信息存储在Hadoop中。然后使用Solr搜索将完成。但我面临着很多问题。如果通过谷歌搜索,那么不同的人会给出不同的建议和不同的配置方式来设置基于hadoop的搜索引擎。这些是我的一些问题:1)抓取将如何完成?有没有用NUTCH完成爬取的?如果是,那么Hadoop和NUTCH如何相互通信?2)Solr有什么用?如果NUTCH做爬取,把爬取的索引和信息存储到Hadoop中,那么Solr的作用是什么?3)我们可以使用Solr和Nutch来完成搜索吗?如果是,那么他们会将抓取的索引保存在哪里?4)Solr如何与Hadoop通信?5)如

hadoop - hadoop 1.2.1 上的 nutch 1.9 中缺少 org.apache.nutch.crawl.Crawl

我已经安装了完全分布式的Hadoop1.2.1。我试图通过以下步骤集成nutch:下载apache-nutch-1.9-src.zip在nutch-site.xml中添加值http.agent.name复制hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site。xml,masters,slaves进入$NUTCH_HOME/conf使用antruntime编译创建urls/seed.txt并安装hadoopdfs编辑$NUTCH_HOME/conf/regex-urlfilter.txt使用命令测试抓取:bin/hadoop-jarn

Hadoop 1.2.1 上的 Apache Nutch 1.9 在 jar 文件中没有 Crawl 类

我正在运行一个由五个Cubieboard组成的集群,它们是类似RaspberryPi的ARM板,上面安装了(因为是32位)Hadoop1.2.1。有一个NameNode和四个SlaveNode。在我的期末论文中,我想安装ApacheNutch1.9和Solr来进行大数据分析。我做了这样解释的设置:http://wiki.apache.org/nutch/NutchHadoopTutorial#Deploy_Nutch_to_Multiple_Machines当启动用于在整个集群上部署Nutch的Jar作业文件时,会出现未找到类的异常,因为自nutch1.7以来不再有Crawl类:htt

apache - 在 hadoop 集群上使用 HBase 设置 Nutch 2.2.1

我已引用本教程(http://wiki.apache.org/nutch/Nutch2Tutorial)来设置Nutch2.2.1.withHbase。我已经完成了教程中给出的设置,但是没有明确提到如何爬取数据并将数据存储到Hbase表中。你能给我推荐一些相关的链接/书籍吗? 最佳答案 对我最有帮助的是:http://sujitpal.blogspot.cz/2011/01/exploring-nutch-20-hbase-storage.html映射到hbase定义在这里NUTCH_HOME/conf/gora-hbase-map

logging - 在 hadoop 上运行 nutch,nutch 日志在哪里?

我的nutch在hadoop上运行,想查看nutch运行日志,但找不到独立的nutch日志之类的输出日志。 最佳答案 如果你在hadoop上运行nutch,会生成每个phase的每个mapper和reducer对应的日志。它的位置是{HADOOP_LOG_DIR}/userlogs//syslog 关于logging-在hadoop上运行nutch,nutch日志在哪里?,我们在StackOverflow上找到一个类似的问题: https://stackove

hadoop - 当集群总共有 5 个节点时,为什么 Nutch 只在一个 Hadoop 节点上运行提取步骤?

我在ElasticMapReduce上运行Nutch,有3个工作节点。我正在使用Nutch1.4,它带有默认配置(在添加用户代理之后)。但是,即使我正在抓取包含30,000个域的列表,抓取步骤也仅从一个工作节点运行,尽管解析步骤在所有三个节点上运行。如何让它从所有三个节点运行提取步骤?*编辑*问题是我需要将mapred.map.tasks属性设置为我的Hadoop集群的大小。您可以找到此文档here 最佳答案 默认情况下,nutch根据其主机对url进行分区。nutch-default.xml中对应的属性是:partition.ur

hadoop - Nutch 如何与 Hadoop 集群协同工作?

全部我想知道nutch是如何与hadoop集群一起工作的。它如何将作业拆分到其他节点?它如何确保集群中的不同节点不会请求相同的url?感谢副词。 最佳答案 nutch的阶段是:注入(inject)->生成->获取->解析->更新->索引其中的Fetch阶段是nutch发送url请求的地方(因此我将只讨论这个阶段并在回答中生成阶段。)生成阶段在crawdb中创建url的获取列表。在创建fetchlist时,属于同一主机的url通常属于同一分区,因为分区功能是基于主机名的。因此,最终的获取列表将如下所示:fetchlist1:allur