草庐IT

BASH_SOURCE

全部标签

bash - 删除 HDFS 中在某个日期范围内创建的所有 0 字节文件

如何删除HDFS中某个日期范围内的文件。即删除从昨天到今天后150天之间创建的0字节文件。这将在shell脚本中完成。我正在使用以下命令删除所有0字节文件,但我需要一个可以提供日期范围的文件hdfsdfs-ls-R$directory/*|grep-Ev"txt|xml|csv|mrc"|awk'$1!~/^d/&&$5=="0"{print$8}'|xargs-n100hdfsdfs-rm有什么帮助吗? 最佳答案 #Createreferencefilewiththedateoftoday00:00:00.000000am#aso

bash - 在 bash 脚本中读取 Hadoop DFS 数据

我在HadoopDFS中有一个文件,位置为/test/filename.txt。此文件具有以下类型的数据:boolarray例如:true[1,2,4,6]我需要在bash脚本中读取此文件并将bool值和列表存储在两个单独的变量中。我对bash不是很熟悉,但我了解基础知识。 最佳答案 希望这个带有“读取行到数组”的例子会有所帮助:/path/to/hadoopdfs-cat/test/filename.txt|whileread-aline;doecho"boolvaris${line[0]}";echo"arrayis${line

bash - Hadoop 启动-all.sh 错误 :No such file or directory

我在成功创建名称节点后,在尝试启动名称节点时遇到了这个问题。对我来说,它似乎正在尝试登录到一个不存在的文件。我如何更改我的设置以将脚本日志定向到正确的目录?bash-3.2$start-all.shstartingnamenode,loggingto/usr/local/bin/../logs/hadoop-Yili-namenode-wifi169-116.bucknell.edu.outnice:/usr/local/bin/../bin/hadoop:Nosuchfileordirectorylocalhost:startingdatanode,loggingto/usr/loc

bash - Hadoop Yarn 上的 Spark 安装

请有人帮助我,我正在尝试在HaoopYarn上安装spark,但出现此错误:org.apache.spark.SparkException:Yarnapplicationhasalreadyended!Itmighthavebeenkilledorunabletolaunchapplicationmaster.atorg.apache.spark.scheduler.cluster.YarnClientSchedulerBackend.waitForApplication(YarnClientSchedulerBackend.scala:113)atorg.apache.spark.s

bash - JQ,Hadoop : taking command from a file

我一直在享受JQ(Doc)提供的强大过滤器。Twitter的公共(public)API提供格式良好的json文件。我可以访问其中的大量内容,并且可以访问Hadoop集群。在那里,我决定不使用Elephantbird将它们加载到Pig中,而是在mapperstreaming中尝试JQ看看它是否更快。这是我的最终查询:nohuphadoopjar$HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-2.5.1.jar\-files$HOME/bin/jq\-Dmapreduce.map.memory.mb=2048\-Dmapred.ou

bash - bash脚本中的直线查询

下面是简单的工作直线查询;当我放入脚本时它会运行,但我想为路径放置一个hivevar,我该如何完成这个,因为当我放入我的脚本.properties文件时='path'似乎没有工作。我想这些单引号遗漏了一些东西,我似乎无法让它发挥作用。maxValQuery.hqlWORKING:INSERTOVERWRITEDIRECTORY'/user/tmp/maxVal'selectmax(${hivevar:MAX_VAL_COL})from${hivevar:FACT_TABLE};WANTED:INSERTOVERWRITEDIRECTORY${hivevar:PATH_ON_HDFS}s

bash - 如何使脚本处理不同的文件?

我有2个脚本。首先,start.sh有这些行:echo"-----------RUNcopymta-------------"bashcopy_file.shmta$today_without_dashecho"-----------RUNcopyrcr-------------"bashcopy_file.shrcr$today_without_dashecho"-----------RUNcopysub-------------"bashcopy_file.shsub$today_without_dash启动copy_file.sh:echo"removeoldfiles"${1}

bash - 从 Cloudera Hadoop 中删除指定天数内的目录

我正在尝试编写一个bash脚本,它允许我在ClouderaHadoop中清理指定天数的目录。我考虑过将文件移动到临时目录,然后执行hdfsdfs-rm,但我无法将-mtime与hdfs结合使用Hadoop命令语法中的dfs-ls、-mv或-rm。我还考虑过-moveToLocal,但这不是一个选项。仅-copyToLocal或-get。任何建议将不胜感激。 最佳答案 试试这个(未测试)hadoopjar/opt/....../jars/search-mr-*-job.jarorg.apache.solr.hadoop.HdfsFin

linux - Hadoop - 列出 HDFS 目录中的所有子目录并将每个目录路径保存到 bash 变量中

假设我有一个名为myDirectory的HDFS目录,其中包含可变数量的子目录,如下所示:/tmp|___mainDirectory|___subDirectory1|___subDirectory2..|___subDirectoryN如何将主目录中每个子目录的路径捕获为bash变量?例如,在上述情况下,我最终会得到N个bash变量,其中每个变量看起来像这样:var_1=/tmp/mainDirectory/subDirectory1var_2=/tmp/mainDirectory/subDirectory2..etc到目前为止,在执行hadoopfs-ls/tmp/mainDire

bash - 使用 shell 条件检查目录是否存在于 hdfs 中

我正在创建一个提示脚本,用于验证输出目录是否存在于hdfs目录中。这是我想出来的whiletrue;doread-p"Whatisthetablename?"table_namecase"$table_name"in*)if(($(hdfsdfs-test-d/user/hive/bar/foo/$test_table)));thenecho"ok";elseecho"notok";fi;;esacdone这是行不通的。我没有收到任何错误,但如果条件为真,输出总是“不正常”。 最佳答案 您的初始编辑存在一些违规行为(句法/语义)。c