草庐IT

hdfs_clusters

全部标签

python - 使用 HDFS 上的文件运行 tensorflow(找不到 libhdfs.so)

我在尝试运行python脚本调用存储在HDFS中的文件上的Tensorflow读取器时遇到错误“libhdfs.so:无法打开共享对象文件:没有这样的文件或目录”(下面的堆栈跟踪)。我在集群上的一个节点上运行脚本,该节点在执行时激活了virtualenv中的Tensorflow。我在执行前设置了以下环境变量:exportHADOOP_HDFS_HOME=$HADOOP_HDFS_HOME:/opt/cloudera/parcels/CDH导出JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64导出LD_LIBRARY_PATH=$LD_LIBRARY_

python - 使用 python 将数据推送到远程 hdfs 的最佳方法是什么

我想将本地文件推送到远程hadoop机器。有没有办法在python中做到这一点?谢谢。 最佳答案 使用hdfsclipython模块。一个简单的例子,对于安全关闭的HDFS环境,看起来像fromhdfsimportInsecureClienthdfsclient=InsecureClient('http://nn_host:port',user='superuser')hdfsclient.upload(hdfspath,localpath)使用TokenClient或KerberosClient基于安全实现。注意:需要WebHDF

hadoop - 如何解决 Oozie 错误 : JA009: Cannot initialize Cluster. 检查 mapreduce.framework.name 的配置

我一直在使用oozie来安排spark作业。尝试使用Oozie中可用的spark操作在2.x集群中部署spark作业。在我的job.properties中,我有以下内容`nameNode=hdfs://hostname:8020jobTracker=hostname:8050master=yarn-clusterqueueName=defaultoozie.use.system.libpath=true`当我提交oozie作业时,我一直收到此错误错误:错误代码[JA009],消息[JA009:无法初始化集群。请检查您的mapreduce.framework.name配置和相应的服务器地

hadoop - 删除 DataNode 目录时的 HDFS 行为

我设置了一个Hadoop集群(HDP2.6),其中包含3个节点,每个节点上都有以下HDFS安装点。/mnt/datadisk1/mnt/datadisk2/mnt/datadisk3因此,我的/etc/fstab文件在三个节点中的每一个上都如下所示:/dev/mapper/centos-home/homexfsdefaults00...#HeretheHDFSPartitions:/dev/sdb/mnt/datadisk1xfsdefaults00/dev/sdc/mnt/datadisk2xfsdefaults00/dev/sdd/mnt/datadisk3xfsdefaults0

hadoop - "Child Error"in Executing stream Job on multi node Hadoop cluster (cloudera distribution CDH3u0 Hadoop 0.20.2)

我在8节点Hadoop集群上工作,我正在尝试使用指定的配置执行一个简单的流作业。hadoopjar/usr/lib/hadoop-0.20/contrib/streaming/hadoop-streaming-0.20.2-cdh3u0.jar\-Dmapred.map.max.tacker.failures=10\-Dmared.map.max.attempts=8\-Dmapred.skip.attempts.to.start.skipping=8\-Dmapred.skip.map.max.skip.records=8\-Dmapred.skip.mode.enabled=tru

authentication - HDFS 数据节点未开始使用 kerberos

我已将kerberos身份验证添加到apachehdfs,名称节点已启动并正在运行,但我无法启动数据节点,出现此异常:2012-08-2317:05:45,648ERRORorg.apache.hadoop.hdfs.server.datanode.DataNode:java.lang.RuntimeException:Cannotstartsecureclusterwithoutprivilegedresources.atorg.apache.hadoop.hdfs.server.datanode.DataNode.startDataNode(DataNode.java:324)at

java - $HADOOP_COMMON_HOME 和 $HADOOP_HDFS_HOME 是同一个值吗?

我知道$HADOOP_COMMON_HOME应该设置为Hadoop目录的根路径,但是$HADOOP_HDFS_HOME的值是多少?同一个?它的值应该是多少? 最佳答案 他们不一样..hadoop发行版中有三个主要的子项目:1)hadoop-common-mapreduce和hdfs使用的通用功能,如IPC..2)hadoop-mapred-mapreduce框架jar3)hadoop-hdfs-hdfs分布式文件系统jar它们每个都在不同的目录中。所以在你提取那些子项目之后,设置$HADOOP_COMMON_HOME设置为hadoo

java - hdfs文件系统复制错误

我写了下面的bash脚本#!/bin/bashcd/export/hadoop-1.0.1/bin./hadoopnamenode-format./start-all.sh./hadoopfs-rmrhdfs://192.168.1.8:7000/export/hadoop-1.0.1/bin/output./hadoopfs-rmrhdfs://192.168.1.8:7000/export/hadoop-1.0.1/bin/input./hadoopfs-mkdirhdfs://192.168.1.8:7000/export/hadoop-1.0.1/input./readwrit

python - 如何将 EMR 流作业的输出写入 HDFS?

我看到examples的人将EMR输出写入HDFS,但我无法找到它是如何完成的示例。最重要的是,thisdocumentation似乎是说EMR流作业的--output参数必须是S3存储桶。当我实际尝试运行脚本时(在本例中,使用python流和mrJob),它会抛出“无效的S3URI”错误。命令如下:pythonmy_script.py-remr\--emr-job-flow-id=j-JOBID--conf-path=./mrjob.conf--no-output\--outputhdfs:///my-output\hdfs:///my-input-directory/my-file

java - 在 Hadoop 2 中使用 camel-hdfs 组件

我是servicemix和osgi的新手,我想知道是否有人在servicemix中将camelhdfs组件与hadoop2.x集群一起使用取得了成功。我尝试过此操作,但遇到了IPC版本不匹配问题。为了解决这个问题,我fork了camel-hdfs组件,修改了hadoop依赖项,并且在作为独立应用程序部署并通过所有测试时,只需对组件进行很小的更改就可以正常工作。现在的挑战是在servicemix中运行它,初始化hadoop类存在问题,即使我使用wrap:*命令将依赖的hadoop库包装为一个包。我得到的一个示例异常是Exceptioninthread"SpringOsgiExtender