nutch2

java - 将 Apache Nutch 2.3 与 Hbase 0.94.14 和 Solr 5.2.1 集成时出错

我正在将Nutch与Hbase和Solr集成。启动Hadoop和Hbase服务后，我在NutchHome中运行如下命令sudo-Ebin/crawlurls/seed.txtTestCrawlhttp://localhost:8983/solr/2我遇到了这些错误:InjectingseedURLs/usr/local/apache-nutch-2.3.1/runtime/local/bin/nutchinjecturls/seed.txt-crawlIdTestCrawlInjectorJob:startingat2016-05-2615:41:14InjectorJob:Injec

时出 Apache java InjectorJob hadoop solr

hadoop - Hadoop 2.x 中的 Nutch

我有一个运行Hadoop2.2.0和HBase0.98.1的三节点集群，我需要在其上使用Nutch2.2.1爬虫。但它只支持1.x分支的Hadoop版本。到现在为止，我可以向我的集群提交Nutch作业，但它因java.lang.NumberFormatException而失败。所以我的问题很简单:如何让Nutch在我的环境中工作？最佳答案目前无法将Nutch2.2.1(Gora0.3)与HBase0.98.x集成。请参阅:https://issues.apache.org/jira/browse/GORA-304Nutch官方教

hadoop Nutch section https hbase cluster-computing

windows - Windows : ERROR crawl. 喷油器上的 Nutch

我正在尝试在基于cygwin642.874的Windows2012服务器上安装nutch1.12。由于java和linux的技能有限，我按照https://wiki.apache.org/nutch/NutchTutorial#Step-by-Step:_Seeding_the_crawldb_with_a_list_of_URLs上的逐步介绍进行了操作。命令bin/nutchinjectcrawl/crawldburls抛出错误，因为找不到winutils.exe。这是hadoop日志:2016-07-0109:22:25,660ERRORutil.Shell-Failedtoloc

喷油器喷油 apache hadoop java windows cygwin nutch

hadoop - 如何在 hadoop 中创建一个 nutch 作业

hadoopjarapache-nutch-1.6.joborg.apache.nutch.crawl.CrawlfirstSite/urls-dirurls-depth1-topN5Exceptioninthread"main"java.io.IOException:Erroropeningjobjar:apache-nutch-1.6.jobatorg.apache.hadoop.util.RunJar.main(RunJar.java:90)Causedby:java.io.FileNotFoundException:apache-nutch-1.6.job(Nosuchfile

建一中创 java apache apache-nutch hadoop nutch

linux - 由于 nutch linux 实例的 tmp 目录中的作业缓存，磁盘空间被填满

我是新手。我们已经设置了solr环境，我们发现我们正面临一个问题。磁盘空间已被100%使用。当我们调试它时，我们看到以下位置的作业缓存正在使用更多空间(大约70%)。“/tmp/hadoop-root/mapred/local/taskTracker/root/jobcache/”。我搜索了很多论坛以了解这个jobcache文件夹到底包含什么。任何人都可以帮助我了解此jobcache文件夹包含什么以及如何限制此tmp文件夹不使用空间。如果我删除jobcache文件夹并使用mkdir命令重新创建它会有什么影响？提前致谢。最佳答案您

linux 填满 section jobcache hadoop solr nutch

hadoop - Nutch 2.3.1 只抓取种子网址

种子 hadoop gt lt property web-crawler nutch

solr - Hadoop 创建一个索引并将其添加到分布式 SOLR 中……这可能吗？我应该使用 Nutch 吗？ ..Cloudera？

我可以使用MapReduce框架创建索引并以某种方式将其添加到分布式Solr中吗？我有大量信息(日志文件和文档)将通过互联网传输并存储在我的数据中心(或亚马逊)中。它需要通过我们复制的Solr安装进行解析、索引和最终搜索。这是我提出的架构:使用MapReduce框架(Cloudera、Hadoop、Nutch，甚至DryadLinq)为索引准备这些文档将这些文档索引为Lucene.NET/Lucene(java)兼容的文件格式将该文件部署到我所有的Solr实例激活那个复制的索引如果可以的话，我需要选择一个MapReduce框架。由于Cloudera是供应商支持的，并且有大量补丁未包含在

hellip 并将 strong Nutch Hadoop solr solrnet faceted-search

apache - 如何使用 Apache Nutch 抓取 .pdf 链接

我有一个要抓取的网站，其中包含一些指向pdf文件的链接。我想让nutch抓取该链接并将它们转储为.pdf文件。我正在使用ApacheNutch1.6，我也在java中将其作为ToolRunner.run(NutchConfiguration.create(),newCrawl(),tokenize(crawlArg));SegmentReader.main(tokenize(dumpArg));谁能帮我解决这个问题最佳答案如果你想让Nutch抓取你的pdf文档并建立索引，你必须启用文档抓取和Tika插件:文档抓取1.1编辑reg

apache section plugin urlfilter hadoop nutch

hadoop - nutch 1.10输入路径不存在/linkdb/current

当我使用以下命令运行nutch1.10时，假设TestCrawl2以前不存在并且需要创建，...sudo-Ebin/crawl-i-Dsolr.server.url=http://localhost:8983/solr/TestCrawlCore2urls/TestCrawl2/20我收到一个关于索引的错误声明:Indexer:org.apache.hadoop.mapred.InvalidInputException:Inputpathdoesnotexist:file:/opt/apache-nutch-1.10/TestCrawl2/linkdb/currentlinkdb目录存

current hadoop code section TestCrawl solr nutch

windows - Windows : Failed to set permissions of path 中的 Nutch

我尝试在Windows机器上使用Solr和Nutch，但出现以下错误:Exceptioninthread"main"java.io.IOException:Failedtosetpermissionsofpath:c:\temp\mapred\staging\admin-1654213299\.stagingto0700从我了解到的很多线程中，nutch似乎使用的hadoop做了一些chmod魔术，可以在Unix机器上运行，但不能在Windows上运行。这个问题已经存在一年多了。我找到了一个线程，其中显示了代码行并提出了修复建议。我真的只有他们一个人有这个问题吗？所有其他人是否都在创建

permissions windows apache hadoop java solr cygwin nutch

123 4 5