hdfs-agent_草庐IT

hadoop - Cloudera-Agent 给出错误 - 'Hostname is invalid; it contains an underscore character.'

我正在尝试使用Cloudera-Manager安装程序在4个虚拟机上设置一个HBase集群(按照安装指南中的建议)。Cloudera-Manager版本为4.6.1，CDH版本为4.3，操作系统为CentOS-6.4。但是在安装包裹并且云时代代理尝试启动之后，报告以下错误:'主机名无效；它包含一个下划线字符。来自/usr/lib64/cmf/agent/src/cmf/agent.py:315.我可以在agent.py的第315行看到一个下划线('_')检查主机名。交叉检查了我们之前的CDH3.4设置，没有这样的验证。开发人员/用户是否可以确认检查是否相关以及下划线('_')是否未在C

Cloudera-Agent underscore 下划 section 39 hadoop hbase cloudera

eclipse - 将文本文件上传到 HDFS(hadoop) 的最快方法

我正在尝试将100万个文本文件上传到HDFS。因此，使用Eclipse上传这些文件大约需要2个小时。任何人都可以建议我做这件事的任何快速技术吗？我在想的是:将所有文本文件压缩成一个zip，然后将其上传到HDFS，最后使用一些解压缩技术，我会将这些文件解压缩到HDFS。任何帮助将不胜感激。最佳答案 Distcp是将文件上传到HDFS的好方法，但对于您的特定用例(您想将本地文件上传到在同一台计算机上运行的单节点集群)，最好不要将文件上传到HDFS全部。您可以使用localfs(file://a_file_in_your_local_d

传到本文 section HDFS eclipse hadoop

hadoop - 如何从本地磁盘而不是 HDFS 上的数据在 Hive 上创建外部表？

对于HDFS上的数据，我们可以做CREATEEXTERNALTABLE{idINT,nameSTRING,ageINT}LOCATION'hdfs_path';但是如何为上面的LOCATION指定本地路径呢？谢谢。最佳答案您可以先使用“hdfsdfs-put”将文件上传到HDFS，然后在其上创建Hive外部表。Hive无法在本地文件上创建外部表的原因是，当Hive处理数据时，实际处理发生在Hadoop集群上，您的本地文件可能根本无法访问。关于hadoop-如何从本地磁盘而不是HDF

hadoop HDFS section Hive stackoverflow cloudera cloudera-cdh impala

hadoop - 如何在 Amazon EMR 上重启 HDFS

我对AmazonEMR集群上的HDFS设置进行了一些更改。我想重新启动名称节点和数据节点以使更改生效。我无法在名称节点(主节点)和数据节点上找到任何启动和停止脚本来执行此操作。应该怎样重启集群？最佳答案在EMR4上，在master主机上运行以下命令-sudo/sbin/starthadoop-hdfs-namenodessh-i"sudo/sbin/restarthadoop-hdfs-datanode"ssh-i"sudo/sbin/restarthadoop-hdfs-datanode"ssh-i"sudo/sbin/r

何在 hadoop section hadoop-hdfs-datanode hdfs emr

python - 子进程打开以运行命令(HDFS/hadoop)

我正在尝试使用subprocess.popen在我的机器上运行命令。这是我目前的情况cmdvec=['/usr/bin/hdfs','dfs','-text','/data/ds_abc/clickstream/{d_20151221-2300}/*','|','wc','-l']subproc=subprocess.Popen(cmdvec,stdout=subprocess.PIPE,stdin=None,stderr=subprocess.STDOUT)如果我在我的终端中运行命令，我会得到一个输出15/12/2116:09:31INFOlzo.GPLNativeCodeLoade

python hadoop code subprocess section popen

hadoop - 上传资源文件时 createBlockOutputStream 中的 Spark HDFS 异常

我正在尝试使用yarn-cluster在集群中运行我的JAR，但一段时间后出现异常。失败前的最后一个INFO是Uploadingresource。我检查了所有安全组，成功执行了hsdfls但仍然出现错误。./bin/spark-submit--classMyMainClass--masteryarn-cluster/tmp/myjar-1.0.jarmyjarparameter16/01/2116:13:51WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-j

createBlockOutputStream hadoop code DFSOutputStream apache-spark hadoop-yarn

shell - 你如何移动文件而不是 hdfs 中的目录？

一段时间以来，我一直在努力寻找解决这个问题的方法。我发现在使用shell的普通文件系统中，您可以使用此命令将所有文件移动到某个位置下，但保留目录不变。find.-maxdepth1-typef-execmv{}destination_path\;我想知道是否还有一个命令可以在hdfs中执行相同的操作。因此，如果我在hdfs中有一个名为“folder1”的文件夹，其中包含文件“copyThis.txt”、“copyThisAsWell.txt”和“theFinalCopy.txt”，还包含一个文件夹“doNotCopy”，我想复制将文件放入名为“folder2”的新文件夹中，但将文件夹“

shell hdfs code section hadoop directory

hadoop - Apache Apex 是依赖 HDFS 还是有自己的文件系统？

我了解ApacheApex在Hadoop和YARN上运行。它是否利用HDFS进行持久性和复制以防止数据丢失？还是它有自己的？最佳答案 ApacheApex使用操作符状态的检查点来实现容错。Apex使用HDFS写入这些检查点以进行恢复。但是，用于检查点的存储是可配置的。Apex也有一个实现checkpointtoApacheGeode.Apex还使用HDFS上传工件，例如包含应用程序jar的应用程序包、其依赖项和启动应用程序所需的配置等。关于hadoop-ApacheApex是依赖HD

hadoop Apache section Apex apache-apex bigdata

Python HDFS 蛇咬伤 : Methods work only with print

我正在使用snakebite客户端https://github.com/spotify/snakebite当我尝试在hdfs中创建目录或移动文件时，我注意到一个奇怪的行为。这是我的代码。它所做的只是将源目录的内容移动到目标目录。最后，显示目标目录的内容defpurge_pending(self,source_dir,dest_dir):if(self.hdfs_serpent.test(path=self.root_dir+"/"+source_dir,exists=True,directory=True)):print"Sourceexists",self.root_dir+sour

Methods Python self dir root_dir hadoop snakebite

hadoop - MapReduceIndexerTool - 在 Solr 中索引 HDFS 文件的最佳方式？

我有一个要求，我必须将HDFS文件(包括TXT、PDF、DOCX和其他丰富的文档)索引到Solr。目前，我正在使用LucidWorks连接器的DirectoryIngestMapper来实现相同的目的。https://github.com/lucidworks/hadoop-solr但我不能使用它，因为它有一定的局限性(主要是你不能指定要考虑的文件类型)。所以现在我正在研究使用MapReduceIndexerTool的可能性。但它没有很多初学者(我的意思是绝对基础!)级别的示例。有人可以发布一些示例链接以开始使用MapReduceIndexerTool吗？有没有其他更好或更简单的方法来

MapReduceIndexerTool hadoop code 34 morphlines solr hdfs cloudera lucidworks