我需要一个具有url规范器、url过滤器、解析器、礼貌、排除某些url等功能的开源爬虫,但无论如何我所做的并不大。我需要保持更新的只有大约500台主机及其1级外链。我不喜欢通过实现Nutch拥有的所有这些优秀功能来重新发明轮子,同时我不喜欢Hadoop为这个小任务带来的开销。有没有没有Hadoop的Nutch分支?或任何其他具有这些功能的简单爬虫?我不需要任何自适应获取调度、排名等。我只有一个主机列表,我应该使用一台机器获取它们的外链。我更喜欢Nutch的一些分支,因为我有使用它的经验。 最佳答案 我认为您只需要linux命令wge
我将apachenutch2.3与hadoop1.2.1和hbase0.94一起使用。我已经为分布式模式配置了apachenutch。当我运行爬行时,出现以下错误15/12/2112:06:56INFOzookeeper.ClientCnxn:Sessionestablishmentcompleteonservernode1/1.11.1.2:2181,sessionid=0x151ba038ac60250,negotiatedtimeout=180000Exceptioninthread"main"java.lang.NoClassDefFoundError:com/google/p
我们正在尝试找出最适合Nutch-Hadoop集成的Linux发行版?。我们计划通过Nutch使用集群来抓取大量内容。如果您需要对此问题进行更多说明,请告诉我?谢谢。 最佳答案 在这种情况下,任何主要的Linux发行版都没有太大区别。但我会向您推荐一个已准备好hadoop包的程序。我在debian上使用Cloudera的Hadoop发行版,它运行良好。 关于hadoop-哪个Linux发行版最适合Nutch-Hadoop?,我们在StackOverflow上找到一个类似的问题:
我正在尝试抓取网络。最好用Nutch。如果开箱即用的Hortownworks支持Nutch,则没有找到引用。有没有专门用HortonworksHDP集成NutchonYARN的?或者有人尝试在Hadoop2.x(YARN)上集成Nutch?提前致谢。 最佳答案 HDP2.3不支持开箱即用的Nutch(HDP网站上有一张图表显示支持的服务:HDP2.3What'sNew)。但是它确实支持Nutch所依赖的服务。可以定义自定义Ambari服务并将其添加到HDP2.3堆栈定义中以启用对Nutch的支持。
我想做一个搜索引擎。我想在其中抓取一些网站并将它们的索引和信息存储在Hadoop中。然后使用Solr搜索将完成。但我面临着很多问题。如果通过谷歌搜索,那么不同的人会给出不同的建议和不同的配置方式来设置基于hadoop的搜索引擎。这些是我的一些问题:1)抓取将如何完成?有没有用NUTCH完成爬取的?如果是,那么Hadoop和NUTCH如何相互通信?2)Solr有什么用?如果NUTCH做爬取,把爬取的索引和信息存储到Hadoop中,那么Solr的作用是什么?3)我们可以使用Solr和Nutch来完成搜索吗?如果是,那么他们会将抓取的索引保存在哪里?4)Solr如何与Hadoop通信?5)如
我已经安装了完全分布式的Hadoop1.2.1。我试图通过以下步骤集成nutch:下载apache-nutch-1.9-src.zip在nutch-site.xml中添加值http.agent.name复制hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site。xml,masters,slaves进入$NUTCH_HOME/conf使用antruntime编译创建urls/seed.txt并安装hadoopdfs编辑$NUTCH_HOME/conf/regex-urlfilter.txt使用命令测试抓取:bin/hadoop-jarn
我正在运行一个由五个Cubieboard组成的集群,它们是类似RaspberryPi的ARM板,上面安装了(因为是32位)Hadoop1.2.1。有一个NameNode和四个SlaveNode。在我的期末论文中,我想安装ApacheNutch1.9和Solr来进行大数据分析。我做了这样解释的设置:http://wiki.apache.org/nutch/NutchHadoopTutorial#Deploy_Nutch_to_Multiple_Machines当启动用于在整个集群上部署Nutch的Jar作业文件时,会出现未找到类的异常,因为自nutch1.7以来不再有Crawl类:htt
我已引用本教程(http://wiki.apache.org/nutch/Nutch2Tutorial)来设置Nutch2.2.1.withHbase。我已经完成了教程中给出的设置,但是没有明确提到如何爬取数据并将数据存储到Hbase表中。你能给我推荐一些相关的链接/书籍吗? 最佳答案 对我最有帮助的是:http://sujitpal.blogspot.cz/2011/01/exploring-nutch-20-hbase-storage.html映射到hbase定义在这里NUTCH_HOME/conf/gora-hbase-map
我的nutch在hadoop上运行,想查看nutch运行日志,但找不到独立的nutch日志之类的输出日志。 最佳答案 如果你在hadoop上运行nutch,会生成每个phase的每个mapper和reducer对应的日志。它的位置是{HADOOP_LOG_DIR}/userlogs//syslog 关于logging-在hadoop上运行nutch,nutch日志在哪里?,我们在StackOverflow上找到一个类似的问题: https://stackove
我在ElasticMapReduce上运行Nutch,有3个工作节点。我正在使用Nutch1.4,它带有默认配置(在添加用户代理之后)。但是,即使我正在抓取包含30,000个域的列表,抓取步骤也仅从一个工作节点运行,尽管解析步骤在所有三个节点上运行。如何让它从所有三个节点运行提取步骤?*编辑*问题是我需要将mapred.map.tasks属性设置为我的Hadoop集群的大小。您可以找到此文档here 最佳答案 默认情况下,nutch根据其主机对url进行分区。nutch-default.xml中对应的属性是:partition.ur