草庐IT

BASH_SOURCE

全部标签

bash - 获取 HDFS 中最后更新的文件夹

我想要我的一个HDFS目录中的最新更新文件夹。我能够在hdfs文件系统中获取最新文件,但不确定如何为HDFS文件系统执行此操作。我尝试使用shell脚本。 最佳答案 使用Hadoop2.6,我可以使用以下命令让它工作:hdfsdfs-ls-R${DIR}|grep"^d"|sort-k6,7|tail-1|tr-s''|cut-d''-f8在哪里,hdfsdfs-ls-R${DIR}:递归地给出所有目录grep"^d":只给出目录sort-k6,7:按修改时间排序tail-1:列出最后修改的目录tr-s'':一些格式化cut-d''

bash - 无法在 Cloudera VM for Hadoop 上找到并执行 start-all.sh 和 Stop-all.sh

如何从命令行CDH4--启动/停止服务。我是Hadoop的新手。从Cloudera安装的VM。找不到start-all.sh和stop-all.sh。如果需要,如何停止或启动任务跟踪器或数据节点。这是我在Centos上使用的单节点集群。我没有做任何修改。除此之外,我还看到所有版本的目录结构都发生了变化。我无法在安装的VM上找到这些sh​​文件。[cloudera@localhost~]$stop-all.shbash:stop-all.sh:commandnotfound非常感谢您的支持。 最佳答案 使用Sudosuhdfs启动和停

bash - 如何在配置单元中使用 Posexplode 函数

我正在使用posexplode将配置单元中的单个记录拆分为多个记录。除了作为输出的多条记录外,我还需要为每一行生成序列号。col1、col2、col3和col4被定义为字符串,因为我们很少同时获得alpha数据.col1|col2|col3|col4---------------------------7|9|A|35|6|9Seq|Col----------1|72|93|A4|31|52|63|9我正在使用下面提到的查询,但出现错误-bash:syntaxerrornearunexpectedtoken(我的查询是:SELECTseq,colFROM(SELECTarray(col

bash - 从 hadoop fs、bash 到局部变量的路径是什么?

这里是Windows用户。将是一个非常简单的答案,肯定有人问过它,但我一定不知道在Stack中找到问题的术语。我试图在我的LinuxVM上引用hadoopfs(hadoop文件系统?)之外的任何文件。一个例子是这样的:hadoopfs-puthome/udacity_training/data/access_logs.txtaccess_logs.txt在上面的调用中,我试图将文件从“数据”文件夹复制到我的hadoop文件系统。但是,对于我尝试引用的每条路径,我都会收到“没有这样的文件或目录”错误。即使尝试像这样使用“copyFromLocal”:hadoopfs-copyFromLo

bash - 如何在不每次调用 shell 的情况下循环 HBase shell 中的命令

我编写了一个脚本来计算每2小时有多少条记录被插入到3个单独的HBase表中。我知道它很劣质,但效果很好,我检索到了所需的结果....但是,每次它在循环中工作时,我都必须调用HBaseshell。有没有办法改进我的代码,这样我就不必这样做来加快速度?#!/bin/bashdeclare-ahbaseTables=("table1""table2""table3");foriin"${hbaseTables[@]}"doecho$i>>results.txttime=1431925200000for((x=0;x>results.txtscan'$i',{TIMERANGE=>[$time

bash - Hive 使用 HIVE CONCATENATE 合并所有分区

我有一个配置单元外部表,在源系统上分区,这意味着数据将来自多个源系统。数据目录结构为:/app/hadoop/MyProject/SchemaName/TableName/PartitionColumn=SoruceSystem1/app/hadoop/MyProject/SchemaName/TableName/PartitionColumn=SoruceSystem2/app/hadoop/MyProject/SchemaName/TableName/PartitionColumn=SoruceSystem3.../app/hadoop/MyProject/SchemaName/T

bash - 我如何找到在 Linux 中定义环境变量的位置

刚开始学习hadoop(CentOS7),请教一个关于环境变量的问题:在我的虚拟机中,rxie是登录用户:HADOOP_CONF_DIR=/opt/hadoop/hadoop-2.7.2/etc/rxie没有/opt/hadoop/hadoop-2.7.2/etc/rxie的路径它应该是/opt/hadoop/hadoop-2.7.2/etc/hadoop我试图找出变量的定义位置,以便我可以更正它。这是我想出的:bash-4.2#grep-rHADOOP_CONF_DIR~/.*/root/./.bashrc:exportHADOOP_CONF_DIR=$HADOOP_HOME/etc

scala - Source.fromFile 不适用于 HDFS 文件路径

我正在尝试从我的hdfs中读取文件内容,因为我正在使用Source.fromFile()。当我的文件在本地系统中时它工作正常,但当我尝试从HDFS读取文件时抛出错误。objectCheckFile{defmain(args:Array[String]){for(line错误:java.io.FileNotFoundException:hdfs:/quickstart.cloudera:8080/user/cloudera/xxxx/File(Nosuchfileordirectory)我进行了搜索,但找不到任何解决方案。请帮忙 最佳答案

bash - 在 bash 脚本中运行 hadoop 命令

我需要在bash脚本中运行hadoop命令,它遍历amazonS3上的一堆文件夹,然后将这些文件夹名称写入一个txt文件,然后进行进一步处理。但问题是当我运行脚本时,似乎没有文件夹名称被写入txt文件。我想知道是否是hadoop命令运行时间太长,bash脚本没有等到它完成并继续做进一步的处理,如果是这样我如何让bash等到hadoop命令完成然后去做其他过程​​?这是我的代码,两种方法我都试过了,都不行:1.listCmd="hadoopfs-lss3n://$AWS_ACCESS_KEY:$AWS_SECRET_KEY@$S3_BUCKET/*/*/$mydate|greps3n|a

bash - 计算 HDFS 文件夹中具有给定扩展名的文件数

我正在编写一个bash脚本,它应该能够计算指定文件夹中的json文件的数量。我现在正在做的是:hdfsdfs-ls/path/to/files/*.json|grep-E'^-'|wc-l当至少有一个文件时,它返回结果的数量,但是当没有json文件时,我希望结果为0,因为路径存在但不包含任何匹配的文件*.json模式。然而,我得到的是一个错误:ls:`/path/to/files/*.json':Nosuchfileordirectory这是预期的行为吗? 最佳答案 是的,这是默认行为。由于这些是错误消息,因此它们被发送到stder