BASH_SOURCE

hadoop - 水槽 :Exec source cat command is not writing on HDFS

我正在尝试使用Flume-ng将数据写入Hdfs作为exec源。但它总是以退出代码127结束。它还显示类似警告无法从VM获取maxDirectMemory:NoSuchMethodException:sun.misc.VM.maxDirectMemory(null)。这是exec.conf文件execAgent.sources=eexecAgent.channels=memchannelexecAgent.sinks=HDFSexecAgent.sources.e.type=org.apache.flume.source.ExecSourceexecAgent.sources.e.ch

水槽 command INFO execAgent file hadoop flume flume-ng

bash - 以 sudo 运行 hadoop 命令

我正在尝试运行“sudohadoopnamenode-format”。我需要以sudo的身份运行它，所以我无法更改它。但是这样做会出现错误:sudo:hadoop:commandnotfound我在/etc/environment中输入了变量:PATH="/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/home/cloud-user/hadoop-2.2.0/bin:/home/cloud-user/hadoop-2.2.0/sbin"JAVA_HOME=

hadoop bash HADOOP_INSTALL export

bash - 使用 bash 连接到 HIVE

我做了一个简单的bash脚本，它应该计算指定数据库中每个表中的列。问题是，那部分`hive-S-e'use'$database';describe'$word''|grep-e'^[a-z]'|uniq|wc-l>>MY_PROJECTS/ColumnCountList.txt`由于配置单元连接而消耗大量时间-每次计算下一个表中的列时，它都会再次连接到配置单元。有什么方法可以连接到Hive一次，然后只执行命令吗？它会快得多，尤其是当我为具有1k表的数据库执行此操作时。代码如下:#!/bin/bashdatabase=postables_list=`hive-S-e'use'$datab

bash HIVE section 39 code unix hadoop

bash - 每次启动时手动启动 HDFS？

简而言之:我是否应该在断电操作后每次我回到集群时启动HDFS？我已经成功创建了一个Hadoop集群(在loosingsomebattles之后)，现在我要非常小心地进行此操作。我应该在每次启动集群时执行start-dfs.sh，还是它已准备好执行我的应用程序代码？start-yarn.sh也是如此。我担心如果我在没有一切正常的情况下运行它，它可能会在执行后留下垃圾目录。最佳答案仅仅通过使用Hortonworks和Cloudera沙箱，我可以说打开和关闭它们似乎没有表现出任何“副作用”。但是每次集群启动的时候都需要启动需要的服务。

bash HDFS section code strong hadoop cluster-computing distributed-computing

bash - 在 Impala Shell 中重新启动失败的脚本查询

我一直在查看ImpalaShell文档，但没有找到解决此问题的任何内容。我有一个运行Impala查询的bash脚本，然后发送一封包含查询结果的电子邮件。问题是，每隔一段时间查询就会失败；发生这种情况时，脚本的下一行开始运行，并通过电子邮件发送一个空白的CSV文件。是否可以对ImpalaShell脚本本身或框架bash脚本进行修改以解决此问题？我最初的想法是让脚本在CSV文件为空时重新运行查询，但在查询合法地没有产生任何结果的情况下，这会使脚本陷入循环。有什么建议吗？这是脚本现在的模型:#!/bin/bashNOW=$(date+"%F")NAME="001"impala-shell-i

Impala Shell NAME section bash hadoop

回填 Hive 表的 Bash 命令——运行多个具有更改日期变量的 Hive 命令

试图找出一种方法来回填ds分区Hive表的分区。我知道如何从CLI运行Hive命令，例如$HIVE_HOME/bin/hive-e'selecta.colfromtab1a'我想做的是提供不同DS的.txt文件，并为每个DS运行一个新作业，例如$HIVE_HOME/bin/hive-e'INSERTOVERWRITEPARTITIONds=$DS_VARIABLE_HEREselecta.colfromtab1awhereds=$DS_VARIABLE_HERE'但我不太确定该怎么做我想试试catdate_file.txt|hive-e'queryhere'但我不确定如何将date_f

mdash Hive DS_VARIABLE_HERE section code bash hadoop

arrays - 在 bash 中使用数组时变量未正确替换

我想捕获hadoop文件的大小，然后根据它的值进行处理。我写了一些unix脚本，但没有按预期工作。#!/bin/shVAR=$(hadoopfs-ls/user/smike/del|sed1d|awk'{print$NF}'|paste-sd,|sed's/,//g')FVAR=$VARarray1=($FVAR)a=""b=""foriin"${array1[@]}"doecho"$i"#var1=$(hadoopfs-dus/user/smike/del/$i|awk'{print$(NF-1)}')var1=$(hadoopfs-ls/user/smike/del/$i|awk'

arrays bash smike section user hadoop awk

bash - 使用 bash 向配置单元脚本发送可变数量的字段

我通过使用bash脚本将csvs移动到HDFS并在其上构建外部Hive表来自动化数据管道。目前，这仅适用于在.hql文件中预定义表格格式的情况。但我希望能够从CSV中读取header并将它们作为参数发送给Hive。所以目前我在文件循环中执行此操作:#bashhive-S-hiveconfVAR1=$target_db-hiveconfVAR2=$filename-hiveconfVAR3=$target_folder/$filename-fcreate_tables.hql发送到这...--hiveCREATEDATABASEIFNOTEXISTS${hiveconf:VAR1};CR

配置单可变 hiveconf section code bash hadoop hive hiveql

hadoop - bash : syntax error near unexpected token `(' - PIG, CentOs

我正在尝试在pig中执行以下命令7369,SMITH,CLERK,800.00,null,207499,ALLEN,SALESMAN,1600.00,300.00,30脚本emp_bag=LOAD'/home/training/dvs/emp.csv'usingPigStorage(',')AS(eno:int,ename:chararray,job:chararray,sal:int,comm:int,deptno:int);出现以下错误bash:syntaxerrornearunexpectedtoken`('请帮助解决这个问题。最佳答案

unexpected hadoop section code stackoverflow apache-pig

bash - 将配置单元查询输出存储在 shell 脚本变量中

当我尝试通过shell脚本执行以下2个查询时，我无法回显输出:查询:close_val=`hive-e"selectcount(1)fromtst_db.dim_calendarwherecalendar_id=20171102"`close_val=$(hive-S-e"USEcars_dev;selectcount(1)fromdim_calendarwherecalendar_id=20171103")echo$close_val错误:2017-11-0300:55:11,505INFO[main]Configuration.deprecation(Configuration.j

配置单 shell Configuration warnOnceIfDeprecated deprecation bash hadoop hiveql

218 219 220221222 223 224