草庐IT

hadoop - nutch1.14去重失败

我在CentOSLinux版本7.3.1611上集成了nutch1.14和solr-6.6.0我在/usr/的种子列表中给出了大约10个urllocal/apache-nutch-1.13/urls/seed.txt我跟着tutorial[root@localhostapache-nutch-1.14]#bin/nutchdeduphttp://ip:8983/solr/DeduplicationJob:startingat2018-01-0915:07:52DeduplicationJob:java.io.IOException:NoFileSystemforscheme:httpa

hadoop - 哪个版本的 hadoop 与 nutch 1.15 一起使用

我打算使用nutch和solr构建一个网络爬虫。我想知道应该安装哪个版本的hadoop才能与nutch1.15一起使用。 最佳答案 Nutch1.15是使用Hadoop2.2.0构建的,但它也可以在使用更高版本的Hadoop2.x和3.x的Hadoop安装上运行。 关于hadoop-哪个版本的hadoop与nutch1.15一起使用,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/

search - Nutch 搜索始终返回 0 个结果

我已经在集群上设置了nutch1.0。它已设置并已成功爬网,我使用dfs-copyToLocal复制了爬网目录,并将位于tomcat目录的nutch-site.xml文件中的searcher.dir的值设置为指向该目录。当我尝试搜索时,仍然收到0个结果。如有任何帮助,我们将不胜感激。 最佳答案 您可能需要重新启动Tomcat。如果您更改文件后还没有。 关于search-Nutch搜索始终返回0个结果,我们在StackOverflow上找到一个类似的问题: ht

java - 将 Nutch 编译成一个 Jar 文件(并运行它)的过程是什么?

我正在尝试以一种我可以通过包含所有依赖项的JAR文件访问其所有功能的方式运行Nutch爬虫。例如,java-jarnutch-all-1.2.jar-crawl并在稍后阶段,使用hadoop调用它。目前,正在做一个java-jarnutch-1.2.jar在nutch目录下存在的JAR文件导致错误,FailedtoloadMain-Classmanifestattributefromnutch-1.2.jar我相信这是因为这个特定的JAR不包含listXML文件或其他依赖JAR。为此,您建议将nutch构建到一个JAR中的最佳方法是什么?谢谢! 最佳答案

java - 在 nutch 中增加语言标识符插件的 Java 堆空间

我正在尝试向自动语言检测工具Apache的tika添加一种新语言。它需要建立一个语言配置文件来添加一种新语言。所以我正在使用nutch语言标识符插件来构建此配置文件。命令如下:bin/nutchpluginlanguage-identifierorg.apache.nutch.analysis.lang.NGramProfile-create./language-detection-profile/jp./language-detection-profile/japanese4ngram-1.txtutf-8其中./language-detection-profile/japanese

hadoop - 安装 Nutch 1.3 和 Hadoop

我是Nutch和Hadoop的新手,正在尝试按照此处的教程进行操作http://wiki.apache.org/nutch/NutchHadoopTutorial.所以我从Nutch1.3版本开始。尽管Hadoop包含在Nutch中,但构建后我在/nutch/search/conf下的教程中没有看到任何这些.sh或.xml文件。我想知道我是否必须先在同一目录结构中设置hadoop,或者在继续进行Nutch设置之前复制hadoop配置文件。谁能告诉我正确的方向。我很确定我迷路了:-(非常感谢 最佳答案 Hadoop从1.3开始就不再包

apache - nutch 仅提取 pdf 文件

有什么方法可以从1-5级执行urlfilter并从5级开始执行不同的urlfilter。我需要提取仅在给定级别之后的pdf文件(只是为了实验)。pdf文件将以二进制格式存储在crawl/segment文件夹中。我想提取这些pdf文件并将它们全部存储在1个文件夹中。我已经能够编写一个java程序来识别pdf文件。我不知道如何制作一个pdf文件,其内容具有相同的字体、页码、图像等。执行抓取合并分割数据运行makePDF.java这只识别pdf文件:Stringuri="/usr/local/nutch/framework/apache-nutch-1.6/merged572/2013040

hadoop - Nutch之hBase数据存储(网页)的理解

我使用HBase作为ApacheNutch抓取数据的存储。我的存储位置在路径/data/hbase/webpage中,在那里我可以看到很多文件夹,例如:64b2feb30073eec24d9dba65d421e7f482062bc554bd45bf198d9edea971a307c8a6eec12d9f6926a1d912be9a0ca81c1f682541b8d1c0559de6df14ae84e2b083b28ee75babc718cc28e66b98c9ff5809eb4bb5f2be087e2c84a2f51d26653还有更多...这些文件夹包含其他文件夹,如:fhilmkm

apache - Hbase 0.94.2 与 apache nutch 依赖的兼容性问题

我正在尝试安装apachenutch2.2.1,并在按照http://www.blogjava.net/paulwong/archive/2013/08/31/403513.html对配置文件进行了必要的更改后成功构建了它。教程。但即使在构建它之后我也无法抓取任何东西,经过数小时的检查我意识到我公司集群上的hbase版本是Hbase-0.94.2而apachenutch2.2.1的安装依赖是HBase0.90.4。由于hbase-0.90.4.jar与Hbase-0.94.2不兼容,因此当我尝试将url注入(inject)nutch时出现以下错误。请帮助我更改apachenutch的依

hadoop - Nutch 2.3 在 runtime/lib 文件夹中有一个旧版本的 hbase jar

Nutch2.3在runtime/lib文件夹中有一个旧版本的hbasejar文件(hbase-0.94.14.jar)。我已经下载了hbase0.94.14但它没有启动,因为“服务器IPC版本9无法与客户端版本4通信”。我可以运行Hbase1.1.2,但不包含jar文件。我该如何解决这个问题?谢谢 最佳答案 您不能仅通过替换jars/bindings来解决它。问题在于使用与HBase1.0+版本不兼容的pre-1.0客户端的Gora。您现在的选择是更新Gora(不仅仅是jar,需要编码),等待官方更新或降级HBase服务器。Rel