草庐IT

hadoop - 在 Apache Nutch 中爬行时出错

我已经在Hadoop(2.5.2)多节点集群(AWSEC2机器)上安装了ApacheNutch2.3.1。我相应地配置了Nutch文件(在主节点上)。我已将seed.txt文件(其中包含要抓取的url)从master文件系统移动到Hdfs文件系统。现在,我运行以下命令进行抓取,bin/hadoopjar/home/ubuntu/nutch/runtime/deploy/apache-nutch-2.3.1.joborg.apache.nutch.crawl.Crawlurls-dircrawl-depth1-topN5我遇到了错误,Exceptioninthread"main"java

hadoop - 在现有的 Hadoop 集群上运行 Nutch

我们有一个Hadoop集群(Hadoop0.20),我想使用Nutch1.2通过HTTP将一些文件导入HDFS,但我无法在集群上运行Nutch。我已经更新了$HADOOP_HOME/bin/hadoop脚本以将Nutchjar添加到类路径(实际上我已经从$NUTCH_HOME/bin/nutch没有将$NUTCH_HOME/lib/*添加到类路径的部分的脚本)然后我尝试运行以下命令来注入(inject)URLS:hadoopjarnutch*.jarorg.apache.nutch.crawl.Injector-confconf/nutch-site.xmlcrawl_pathurls

java - 如何自定义 Apache Nutch 2.3 生成步骤

我希望Nutch根据我自己的规则选择特定的URL。此步骤在生成时完成。我知道如何编写解析器/索引器插件。但是如何在生成时做到这一点。我的Nutch版本是2.3系列 最佳答案 Nutch生成器并不是真正的Nutch扩展点,因此您无法编写插件来自定义它。尽管如此,没有什么能阻止您用自己的逻辑编写自己的生成器。您需要调整bin/nutch和bin/crawl脚本才能调用您自己的生成器而不是默认生成器。请记住,Nutch的其他一些部分依赖于生成器实现的某些部分(例如SegmentMerger)。如果您自定义这些部分,那么您还需要更新一些其他

solr - 有关 Nutch、Hadoop、Solr、MapReduce 和 Mahout 的信息

PS:如有错误,请指正我正在使用Nutch和Solr构建一个搜索引擎。我知道通过使用Solr,我可以提高搜索的效率-让Nutch单独爬取整个web。我也知道Hadoop是用来处理PB级数据的,通过形成集群和MapReduce。现在,我想知道的是1)因为,我将只在一台机器上运行这些开源软件,即我在本地主机上的笔记本电脑......Hadoop在我的情况下有什么好处,因为它形成了集群?如何在一台机器上形成集群?2)在我的案例中,MapReduce的重要性是什么?3)MAHOUT、CASSANDRA和HBASE将如何影响我的引擎???非常感谢这方面的任何帮助。如果我问了一个菜鸟问题,请向我道

hadoop - Nutch : org. apache.hadoop.mapreduce.lib.input.InvalidInputException: 输入路径不存在

当我执行nutch命令创建crawdb文件夹和内容时:soporte@CNEOSYLAP/usr/local/apache-nutch-2.2.1/runtime/local$bin/nutchcrawlurls-dircrawl-depth3-topN5我收到这个错误:InjectorJob:Usingclassorg.apache.gora.hbase.store.HBaseStoreastheGorastorageclass.Exceptioninthread"main"org.apache.hadoop.mapreduce.lib.input.InvalidInputExcep

hadoop - Nutch 2.0 和 Hadoop。如何防止缓存 conf/regex-urlfilter.txt

我在一台机器上安装了nutch2.x和hadoop1.2.1。我配置seed.txt、conf/regex-urlfilter.txt并运行命令crawlurls/seed.txtTestCrawlhttp://localhost:8088/solr/2然后我想更改conf/regex-urlfilter.txt中的规则我在2个文件中更改了它:~$find.-name'regex-urlfilter.txt'./webcrawer/apache-nutch-2.2.1/conf/regex-urlfilter.txt./webcrawer/apache-nutch-2.2.1/runt

java - 如何在 Windows 上的 eclipse 中运行 nutch 1.9?

我想在Windows上的Eclipse中运行Nutch1.9。我遵循了http://wiki.apache.org/nutch/RunNutchInEclipse中的教程并在Eclipse中打开项目。但是当我运行Nutch时,出现以下错误:2014-09-1917:45:48,039INFOcrawl.Injector(Injector.java:inject(283))-Injector:startingat2014-09-1917:45:482014-09-1917:45:48,043INFOcrawl.Injector(Injector.java:inject(284))-Inj

Hadoop-2.5.1 + Nutch-2.2.1 : Found interface org. apache.hadoop.mapreduce.TaskAttemptContext,但类是预期的

命令:./crawl/urls/mydirXXXXX2在Hadoop-2.5.1和Nutch-2.2.1中运行该命令时,出现如下错误信息。14/10/0719:58:10INFOmapreduce.Job:正在运行的作业:job_1411692996443_001614/10/0719:58:17INFOmapreduce.Job:作业job_1411692996443_0016在super模式下运行:false14/10/0719:58:17INFOmapreduce.Job:map0%reduce0%14/10/0719:58:21INFOmapreduce.Job:任务ID:at

java - Apache nutch 不再爬行

我有一个双机集群。在一台机器上配置了nutch,在第二台机器上配置了hbase和hadoop。hadoop是全分布式,hbase是伪分布式。我已经爬取了大约280GB的数据。但是现在当我开始爬行的时候。它给出以下消息并且不再在上一个表中抓取信息mapreduce.GoraRecordReader-gora.buffer.read.limit=10000信息crawl.FetchScheduleFactory-使用FetchSchedule实现:org.apache.nutch.crawl.DefaultFetchSchedule和以下错误错误存储.HBaseStore-[Ljava.l

hadoop - nutch on Hadoop on google cloud- gloud dataproc

当我尝试在谷歌云(dataproc)上的hadoop上运行nutch时,出现以下错误。知道为什么我会面临这个问题user@cluster-1-m:~/apache-nutch-1.7/build$hadoopjar/home/user/apache-nutch-1.7/runtime/deploy/apache-nutch-1.7.joborg.apache.nutch.crawl.Crawl/tmp/testnutch/input/urls.txt-solrhttp://SOLRIP:8080/solr/-depth5-topN216/09/1117:57:38INFOcrawl.C