草庐IT

BASH_SOURCE

全部标签

bash - 如何在 hadoop 映射器中使用 shell 脚本获取值

我想处理PCAP文件,然后使用WholeFileInputFormat。map的输入是.如何使用shell脚本获取内容? 最佳答案 #testfile:echo-e"foobar\tthisis\ntherestofthecontent">filecontents=$(sed'1s/[^\t]*\t//'file)label=$(sed'1{s/\t.*//;q}'file)您必须引用变量以保留空格。echo"$label"echo"$contents"你应该总是引用变量,除非你知道为什么你不应该这样做

bash - 遇到 IOException 运行导入作业 : java. io.IOException:javac 返回的错误

我正在尝试使用JAVA运行一个简单的sqoop导入程序。我的程序:Stringdriver="com.vertica.Driver";Configurationconfig=newConfiguration();config.addResource(newPath("/../../../mapred-site.xml"));config.addResource(newPath("/../../../core-site.xml"));config.addResource(newPath("/../../../hdfs-site.xml"));SqoopOptionsoptions=new

bash - 如何使用 bash 命令读取名称中包含 '[' 和 ']' 的文件

我有一个文件../reports/[2015-10-01]-[2015-10-07]。它是一个大文件,所以当我尝试使用“拆分”命令拆分它时,出现错误,因为bash将[]视为字符类。我的脚本:hdfs='hadoopfs'startDate=$1endDate=$2reportPath="/reports/weeklyReport/[${startDate}]-[${endDate}]"tmpWorkingDirectory="/tmp/weeklyReport"filePrefix="WeeklyReport[${startDate}]-[${endDate}]-Part-"if[-d

bash - Hadoop Crontab 放

我正在尝试使用crontab编写一个简单的任务,将一些文件从本地复制到HDFS。我的代码是这样的:#!/bing/kshANIO=$(date+"%Y")MES=$(date+"%m")DIA=$(date+"%d")HORA=$(date+"%H")#LOCALANDHDFSDIRECTORIESDIRECTORIO_LOCAL="/home/cloudera/bicing/data/$ANIO/$MES/$DIA/stations"$ANIO$MES$DIA$HORA"*"DIRECTORIO_HDFS="/bicing/data/$ANIO/$MES/$DIA/"#Testift

Bash - 基于以毫秒为单位的时间戳搜索

我正在搜索一个时间间隔内所有已完成(数百个)的Hadoop作业。此时间间隔以毫秒为单位。格式如下:JobIdStateStartTimeUserNameQueuePriorityUsedContainersRsvdContainersUsedMemRsvdMemNeededMemAMinfojob_xxxxxxxSUCCEEDED1458844667431defaultdefaultNORMALN/AN/AN/AN/AN/Ahttp://xxxxxxxx:8088/proxy/application_xxxxxxxxxx/jobhistory/job/job_xxxxxxxxjob_x

python - 如何使用 python、bash 和 strace 检测 SIGHUP 发件人

由于神秘的原因,构建我们的Hadoop集群的机器似乎经历了SIGHUP的波浪。.所有盒子都运行centos6.7/8和Cloudera(CM+CDH)5.9。当这样SIGHUPwave发生在一台机器上,我看到进程卡住了(一些来自Hadoop,一些是操作系统原生的,如ntpd),以及SIGHUP的痕迹被记录在几个文件中。/var/log/messages中的一个例子看起来像Jan3010:19:43hadoop21rsyslogd:[originsoftware="rsyslogd"swVersion="5.8.10"x-pid="2451"x-info="http://www.rsys

hadoop - 错误配置单元(使用 Derby): Source tables cannot be empty

我刚开始使用Hive,遇到一个错误需要您的帮助。在等待一段时间后,当我尝试创建一个新数据库时,它发生了:hive>CREATEDATABASETest;(编辑:我对“SHOWTABLES”有同样的看法)我明白了:Exceptioninthread"main"java.lang.AssertionError:Sourcetablescannotbeemptyatorg.apache.hadoop.hive.ql.hooks.EnforceReadOnlyTables.(EnforceReadOnlyTables.java:46)atjava.lang.Class.forName0(Nat

Hadoop hive : Generate Table Name and Attribute Name using Bash script

在我们的环境中,我们无法访问Hive元存储来直接查询。我需要为一组表动态生成表名、列名对。我试图通过对所有表的文件运行“describeextended$tablename”并从文件中选取表名和列名对来实现这一点。除了这种方式,还有其他更简单的方法吗?想要的输出是这样的table1|col1table1|col2table1|col3table2|col1table2|col2table3|col1 最佳答案 此脚本将为单个表以所需格式打印列。AWK从describe命令解析字符串,只接受column_name,用“|”连接和tab

bash - "-bash: cd: hadoop: Not a directory"是什么意思?

我正在尝试按照this运行“hadoopwordcountinpython”教程。在教程中,当我运行此命令/usr/local/hadoop/bin/hadoopfs-put~/count_of_monte_cristo.txt/input时,它显示-bash:cd:hadoop:不是目录。在教程中它说我们需要通过在HDFS中创建一个目录来放置文本文件。我的问题是,如果/bin/hadoop不可访问,我应该将文本文件放在哪里进行分析?有什么选择吗?或者,我在这里做错了什么吗? 最佳答案 假设你已经在/Users/JJ/hadoop-

bash - 在特定作业上运行 SHell 脚本时如何从 HDFS 获取最新的有效分区日期?

我的任务是为特定的Spark作业实现所有分配的表。我需要根据要为分配给作业的所有表打印的时间戳和路径编写脚本。我需要获取与该作业关联的表关联的所有时间戳。这是我开发的脚本。#!/usr/bin/envbashJOB_NAME=${1}inputDirListings=$(awk-F:-vkey="$1"'$1==key{print$2}'test_paths.txt)fordirin$(echo$inputDirListings|tr",""\n");dopath=$direcho"diris$path"cmd2='hdfsdfs-du-h$path'ev1=`eval$cmd2|ta