草庐IT

display-plugin-updates

全部标签

java - Nutch-Hadoop :- how can we crawl only the updates in the url going for recrawl?

请有人告诉我如何识别要重新抓取的URL中的更新?当页面要重新抓取时,我只想抓取页面的更新内容,而不是已经抓取的旧内容。提前致谢。普拉亚.. 最佳答案 我想你的意思是,只有当内容在服务器端被修改时,你才想重新抓取url。您希望nutch识别它,从而明智地决定是否获取内容。Nutch有维护页面的“上次修改”时间的概念,并且在重新抓取页面时将其存储而不投入使用。Theyknew它会节省磁盘空间和带宽,但不会因为其他小东西而引起人们的兴趣。Peoplehadraised这个问题,但我仍然没有看到nutch开发团队的任何Activity。Ef

eclipse-plugin - 从 eclipse 访问 Hadoop 集群

我只是按照Hadoop(0.20.2)安装教程进行了设置。我可以通过eclipse在集群上运行mapreduce程序。现在我的问题是如何从我的本地系统连接到Hadoop集群。本地系统是windows7,我已经为Hadoop安装了eclipse插件。我试图从我的本地系统windows连接到Hadoop(我的本地系统和Hadoop系统在同一个子网中)。连接到Hadoop服务器时出现连接超时错误。在Hadoop的配置文件中我给出了实际的IP地址。不确定我错过了哪一步? 最佳答案 我最近读到,eclipse插件根本不起作用。但是您可以简单地

eclipse-plugin - hadoop with MultiInputs, TotalOrderPartitioner------------with hadoop-eclipse-plugins

我有两个问题:现在我已经使用了hadoop0.20.203和hadoop1.0.0。但是我发现这两个版本都没有MultiInputs,TotalOrderPartitioner等类。(我打开$HADOOP_HOME/hadoop-core-1.0.0.jar文件,并没有在ort/apache/hadoop/mapreduce/lib/input/*中找到.class文件)。但我必须用它们来做一些工作。我错过了什么吗?我应该选择什么版本?我想找一个hadoop1.0.2的插件(因为我发现这个版本的hadoop-core-1.0.2.jar文件有我想要的类。)我想找一个编译好的。在哪里可以

ubuntu - update-alternatives 在 CDH4 安装中抛出错误

我正在我的ubuntu12.04系统上安装CDH4。当我使用update-alternative指向我的hadoop_conf时,它会抛出一个错误。我到处搜索,但没有找到解决这个问题的办法。使用的命令:-sudoupdate-alternatives--install/etc/hadoop/confhadoop-conf/etc/hadoop/conf.my_cluster50sudoupdate-alternatives--sethadoop-conf/etc/hadoop/conf.my_cluster这给出了一个错误...update-alternatives:error:can

hadoop - 级联 sinkmode.update 不工作

我刚开始级联编程并且有一个级联作业需要运行可变的迭代次数。在每次迭代期间,它从前一次迭代生成的文件(Tap)准备好并将计算的数据写入两个单独的SinkTaps。OneTap(TapFinal)用于收集每次迭代的数据。另一个Tap(Tapintermediate)用来收集下一次迭代需要计算的数据。我正在使用SinkMode.UPDATE来实现“Tapfinal”。它在本地模式下工作正常。但在集群模式下失败。提示文件已经存在(“Tapfinal”)。我正在运行CDH4.4和级联2.5.2。似乎没有人遇到过同样的问题。如果有人知道任何可能的修复方法,请告诉我。谢谢Causedby:org.a

hadoop - eclipse plugin for hadoop 2.4.1 版本

我已经安装了正在运行的hadoop2.4.1,我正在尝试为hadoop配置eclipse。我没有看到hadoop2.4.1版本的eclipse插件。有谁知道在哪里可以选择该插件并在eclipse中使用它。我知道大多数hadoop发行版都会有eclipse插件,但不幸的是,据我所知,2.4.1没有。我们从哪里可以获得eclipse插件以及它的eclipse-plugin版本是什么关于此的另一个问题,我在hadoop/lib文件夹中看到一些.a文件。这些是什么以及如何打开它们,因为我怀疑它可能有库jar文件。 最佳答案 hadoop项目

windows - 无法在项目 hadoop-hdfs :1. 上执行目标 maven maven-antrun-plugin : An Ant BuildException around Ant part hadoop-hdfsproject hadoop-hdfs:? 7

我正在尝试在装有Windows10家庭版的开发计算机上构建以下hadoop版本hadoop-2.7.3-src以下是我本地开发环境的详细信息:-Windows10家庭版-英特尔酷睿i5-6200UCPU@2.30GHz-RAM16GB-64位操作系统,基于x64的处理器-MicrosoftVisualStudioCommunity2015版本14.0.25431.01更新3-.NETFramework4.6.01586-cmake版本3.7.2-CYGWIN_NT-10.0LTPBCV82DUG2.7.0(0.306/5/3)2017-02-1213:18x86_64Cygwin-ja

eclipse-plugin - hadoop 的 eclipse 插件是否与 CDH3 一起工作

我在我的机器上安装了clouderaCDH3。然后我尝试使用eclipse插件(JIRAMAPREDUCE-1280)来做一些MR任务。但是,由于某种原因,该插件似乎不适用于CDH3。它无法连接到DFS。插件是否正常工作? 最佳答案 CDH3与ApacheHadoop0.20.2不兼容。来自JIRAMAPREDUCE-1280的Eclipse插件是针对ApacheHadoop构建的。它与CDH3不兼容。 关于eclipse-plugin-hadoop的eclipse插件是否与CDH3一起

Hadoop HDFS 数据文件 : Displaying Datanodes & Blocks

我已经将一个文件放入HDFS,我想确切地知道它是如何分散在DFS中的(哪些数据block在哪些数据节点中)。尝试了fsck,但当我指定我放入DFS中的数据文件的名称时,出现“无效路径”错误。有什么想法吗? 最佳答案 尝试hdfsfsck/path/to/file-files-blocks-locations这将打印出文件每个block的位置。NamenodeWebUI也会提供这些信息。在Utilities-->Browsethefilesystem下,选择要查看block信息的文件。 关

Spring Boot 无法运行 maven-surefire-plugin ClassNotFoundException org.apache.maven.surefire.booter.ForkedBooter

运行SpringBoot2.0.2.RELEASE应用程序的maven(3.5.2)构建(由具有Web依赖项的Web初始化程序生成)无法执行ma​​ven-surefire-plugin只是说:Error:Couldnotfindorloadmainclassorg.apache.maven.surefire.booter.ForkedBooterCausedby:java.lang.ClassNotFoundException:org.apache.maven.surefire.booter.ForkedBooter为什么会这样?它是引导中的问题+肯定集成=错误吗?作为引用,看起来相