草庐IT

maven - Cloudera VM 上的 Apache Giraph - org.apache.hadoop 的 POM :hadoop-core:jar:2. 6.0 缺失,无依赖信息

我是Hadoop/Giraph和Java的新手。作为任务的一部分,我在其上下载了ClouderaQuickstartVM和Giraph。我正在使用这本书,名为“使用ApacheGiraph进行实用图形分析;作者:Shaposhnik、Roman、Martella、Claudio、Logothetis、Dionysios”,我尝试从中运行第111页上的第一个示例(TwitterFollowershipGraph)。尝试在集群2.6.0-mr1-cdh5.12.0上使用hadoop版本运行更改后的pom.xml文件时,请发现以下错误`[cloudera@quickstartfirst]$m

hadoop - 在不同硬件机器的 VM 之间安装 hadoop 集群

我负责向一群人(假设5个人)教授Hadoop,但没有任何可用的硬件。他们每个人都有一台笔记本电脑,配备相当大的内存和处理器。我想让他们在自己的笔记本电脑之间创建一个Hadoop集群,这些笔记本电脑将连接到同一网络。到目前为止,我的想法是:创建一个预配置了ubuntu16的VM镜像(ubuntu16是我的选择),为集群节点做好准备让他们每个人在自己的计算机上运行虚拟机在此VM网络之上创建集群但是,我有一些锁:1/是否可以创建位于不同机器上的VM的私有(private)网络,以便hadoop集群与链接物理机器的网络隔离?2/这种方法有什么问题?3/有没有更好的方法来处理在不同个人机器之间设

java - Hadoop 生成多个 VM

当我使用bin/start-all.sh脚本启动hadoop时,它似乎为名称节点、数据节点、作业跟踪器和任务跟踪器启动了不同的JVM。此外,当我开始一项工作时,它似乎为每个工作创建了另一个JVM。hadoop这样做有什么具体原因吗?我知道这在多节点集群环境中是必要的,但即使在单节点集群中也是如此。有没有一种方法可以指定在同一JVM下运行所有​​内容的任何配置参数? 最佳答案 我还没有读到任何具体说明他们为什么这样做的内容,但是对于多个JVM,您可能会使用更多的物理RAM(取决于操作系统)。你也会得到一些隔离。所以,如果你想改变一个组

hadoop - 收到警告 ipc.Client : interrupted waiting to send params to server when copying files to HDFS

我写了一个perl脚本,其中调用了copyFromLocal来上传文件。当它运行时,WARNipc.Client:interruptedwaitingtosendparamstoserver发生。我检查了刚刚上传的HDFS上的所有文件。看来都复制成功了。谁知道那个警告是什么意思?完整的警告信息12/10/2311:41:07WARNipc.Client:interruptedwaitingtosendparamstoserverjava.lang.InterruptedExceptionatjava.util.concurrent.locks.AbstractQueuedSynchro

hadoop - 在本地运行 Hadoop,在 VM 中访问 HDFS。找不到本地文件

为什么HDFS不能从我的本地机器读取文件?此异常中的路径似乎表明它正在从我的笔记本电脑(而不是VM)读取,但找不到该文件。ls显示它确实存在(见底线)。请让我知道我可以提供更多信息!java.io.FileNotFoundException:Filefile:/Users/rose/bigdata/4/data/data.txtdoesnotexistatorg.apache.hadoop.fs.RawLocalFileSystem.getFileStatus(RawLocalFileSystem.java:468)atorg.apache.hadoop.fs.FilterFileSy

bash - 无法在 Cloudera VM for Hadoop 上找到并执行 start-all.sh 和 Stop-all.sh

如何从命令行CDH4--启动/停止服务。我是Hadoop的新手。从Cloudera安装的VM。找不到start-all.sh和stop-all.sh。如果需要,如何停止或启动任务跟踪器或数据节点。这是我在Centos上使用的单节点集群。我没有做任何修改。除此之外,我还看到所有版本的目录结构都发生了变化。我无法在安装的VM上找到这些sh​​文件。[cloudera@localhost~]$stop-all.shbash:stop-all.sh:commandnotfound非常感谢您的支持。 最佳答案 使用Sudosuhdfs启动和停

单节点 vagrant VM 上的 Hadoop - 启动 start-all.sh 时连接被拒绝

我创建了一个vagrant虚拟机并在上面安装了hadoop。只有一个服务器集群。但是当我尝试在机器上启动我的hadoop时,出现以下错误:mkdir:从master/127.0.1.1到localhost:9000的调用在连接异常时失败:java.net.ConnectException:连接被拒绝;有关详细信息,请参阅:http://wiki.apache.org/hadoop/ConnectionRefused还有想法?该机器被命名为master。服务器是Ubuntu。谢谢! 最佳答案 这是因为hdfs节点没有运行goto,cd

hadoop - 在 Cloudera VM 中将数据从 HDFS 加载到 Hive Table

当使用ClouderaVM时,您如何访问HDFS中的信息?我知道没有到HDFS的直接路径,但我也不知道如何动态访问它。通过HiveCLI创建Hive表后,我尝试从位于HDFS中的文件加载一些数据:loaddatainpath'/test/student.txt'intotablestudent;但是我得到了这个错误:FAILED:SemanticExceptionLine1:17Invalidpath''/test/student.txt'':Nofilesmatchingpathhdfs://quickstart.cloudera:8020/test/student.txt我还尝试将

hadoop - Cloudera CDH VM 默认 HADOOP_HOME 位置

ClouderaCDH4VM中的默认HADOOP_HOME位置是什么。echo$HADOOP_HOME返回空白。 最佳答案 /usr/lib/hadoop是CDH4中的默认HADOOP_HOME。关于弃用,HADOOP_PREFIX似乎是HADOOP_HOME的替代品:$HADOOP_HOMEisdeprecated我相信HADOOP_MAPRED_HOME仅用于mapreduce基础设施,如果您直接使用HDFS,那么您可能需要HADOOP_PREFIX。 关于hadoop-Cloude

r - Sparklyr copy_to 失败

我正在使用Sparklyr库从R读取数据并将数据写入HDFS。读取数据按预期工作,但写入会出现问题。为了能够使用spark_write_csv函数,我需要将我的Rdata.frames转换为Spark对象。我为此使用了sparklyrsdf_copy_to函数(也尝试使用copy_to)。但是,我总是出错代码:table1错误:Error:org.apache.hadoop.mapred.InvalidInputException:Inputpathdoesnotexist:hdfs://iacchadoopdev01.dap:8020/tmp/Rtmp2gpelH/spark_ser