nutch2_草庐IT

java - 将 MySQL 连接到 Apache nutch

我是第一次使用ApacheNutch。爬取后如何将数据存储到MySQL数据库中？我希望能够在其他Web应用程序中轻松使用这些数据。我找到了一个questionrelated,但我不清楚MySQL连接器替换了代码ID的哪一部分。请帮助提供一个简短的代码示例。最佳答案从http://mirror.nyi.net/apache//nutch/apache-nutch-1.2-src.zip获取源代码在编辑器中打开org.apache.nutch.crawl.Crawl类。查找变量PathcrawlDb=newPath(dir+"/cr

java - 当我尝试运行 nutch generate 命令时共享内存文件空间不足

过去3周我一直在运行nutch爬行命令，现在当我尝试运行任何nutch命令时出现以下错误:JavaHotSpot(TM)64-BitServerVMwarning:Insufficientspaceforsharedmemoryfile:/tmp/hsperfdata_user/27050Tryusingthe-Djava.io.tmpdir=optiontoselectanalternatetemplocation.Error:Couldnotfindorloadmainclass___.tmp.hsperfdata_user.27055我该如何解决这个问题？

试运试运行 section 卷上 dev java jvm nutch

如何使用Nutch索引NFS安装？

我正在尝试构建在CentOS7机器上托管的搜索工具，该工具应索引并搜索已安装的NFS导出的目录。我发现Nutch+Solr是最好的选择。我很难为此配置URL，因为这不会搜索任何HTTP位置。安装座位于/mnt所以我的seeds.txt看起来像这样：[[email protected]bin]#cat/root/Desktop/apache-nutch-1.13/urls/seed.txtfile:///mnt和我的Regex-urlfilter.txt具有相同的站点以及允许文件协议#skipfile:ftp:andmailto:urls-^(http|https|ftp|mailto):#sk

索引安装 code Injector section

windows - Windows 上的 Apache Nutch

有人试过在Windows上安装Nutch吗？我正在遵循此安装指南:http://zillionics.com/resources/articles/NutchGuideForDummies.htm经过几次颠簸后，我无法尝试运行爬虫。它给了我这个错误:bin/nutch:第15行:意外标记'$'in\r''附近的语法错误'in/nutch:line15:'case"'uname'"in显然我需要在cygwin中安装uname实用程序，但我无法在任何地方找到它。有谁知道它在哪个包中，或者是否有其他方法可以解决这个问题？最佳答案问题不

windows section nutch NutchGuideForDummies cygwin

hadoop - nutch查看存储在hbase中的hbase数据的方法

我正在使用apachenutch将数据存储在使用hdfs作为其文件系统的hbase中。我想知道它在hbase等中存储了哪些文档。如何从hbase中读取该数据，例如一些pdf存储在hbase中。我想读它。我会怎么做。请指导我？最佳答案网页和文档存储为一行。如果您知道您的文档链接，您可以在hbaseshell或其他工具(hivepig等)上获取它。Nutch将URL存储为反向URL。例如“http://bar.foo.com:8983/to/index.html?a=b”变成“com.foo.bar:8983:http/to/ind

hbase hadoop section http hdfs nutch

eclipse - 在 eclipse 中运行 nutch1.9 时出现错误 CrawlDb update : java. io.IOException: Job failed

我正在尝试在eclipse中运行nutch1.9，我的所有配置都是根据这篇文章(http://yewintko.wordpress.com/2014/02/02/setting-up-nutch-in-eclipse-indigo/)进行的。但是我得到了这个错误:CrawlDbupdate:startingat2014-11-1015:50:10CrawlDbupdate:db:urlsCrawlDbupdate:segments:[3,crawl]CrawlDbupdate:additionsallowed:trueCrawlDbupdate:URLnormalizing:false

中运时出 CrawlDb update section eclipse hadoop nutch

performance - 优化 hadoop 集群上的 nutch 性能

我正在尝试优化抓取网站的nutch性能。现在我在小型hadoop集群上测试性能，只有两个节点32gbRAM，cpuIntelXeonE31245v24c/8t。我的nutch配置http://pastebin.com/bBRHpFuq所以，问题是:获取工作不是最优的。一些reduce任务有4k页面用于获取，一些1kk页面。例如见截图https://docs.google.com/file/d/0B98dgNxOqKMvT1doOVVPUU1PNXM/edit有些reduce任务在10分钟内完成，但一个任务工作了11个小时并且仍在继续工作，所以当我有24个reduce任务但只工作一个时，

performance hadoop section noreferrer com nutch cloudera hadoop-yarn

hadoop - Nutch fetch 命令不获取数据

我有一个包含以下软件堆栈的集群设置:nutch-branch-2.3.1,gora-hbase0.6.1Hadoop2.5.2，hbase-0.98.8-hadoop2所以初始命令是:注入(inject)、生成、获取、解析、更新b其中前2个，即注入(inject)、生成工作正常，但对于nutch命令(即使它执行成功)它没有获取任何数据，并且因为获取过程失败，它的后续过程也失败了。请找到每个进程的计数器日志:注入(inject)作业:2016-01-0814:12:45,649INFO[main]mapreduce.Job:Counters:31FileSystemCountersFIL

hadoop Nutch Number bytes tasks hbase

apache - Hadoop、HBase 和 Apache Nutch 兼容版本

HBase和Nutch。我正在尝试将这3个集成在一起，但遇到了兼容性问题。我想知道是否有人知道我可以一起使用哪些最新版本的Hadoop、HBase和Nutch。非常感谢任何见解非常感谢! 最佳答案您现在可以拥有的最新兼容版本是:坚果2.3.1hbase0.98.17-hadoop2hadoop2.5.2来源:nutchnews. 关于apache-Hadoop、HBase和ApacheNutch兼容版本，我们在StackOverflow上找到一个类似的问题：

apache Hadoop section strong stackoverflow web-crawler hbase nutch

apache - 使用 apache nutch 抓取视频

如何使用ApacheNutch获取这样的视频标签:Yourbrowserdoesnotsupportthevideotag.Apachenutch可以获取图像标签，但在视频源中不起作用。任何人都可以指导我吗？感谢帮助最佳答案我已经通过在插件parse-html(DOMContentUtils.java)上添加源标记来解决这个问题linkParams.put("frame",newLinkParams("frame","src",0));linkParams.put("iframe",newLinkParams("iframe",

apache nutch 34 section video hadoop web-crawler