草庐IT

shell-mode

全部标签

shell - 使用 azure 数据工厂 (ADF) 从 Pig/Hive 事件运行 shell 脚本

我正在使用AzureBlob存储,数据工厂和HDInsight集群。我有一个包含hadoop和hive相关代码的shell脚本,我正在尝试在ADF中添加/创建一个hive/Pig事件,从pig/hive的代码我正在调用一个shell脚本;作为myFile.pigsh/myFolder/myscript.sh==========================myFile.hql!/myFolder/myscript.sh在执行时,我得到Java.IO.Excption|无此文件或目录。根据异常pig/hive文件无法识别shell脚本路径;有没有人遇到过类似的问题,或者有没有人部署了p

hadoop - spark-shell --master yarn 卡住

我通过Homebrew安装了Hadoop和Spark$brewlist--versions|grepsparkapache-spark2.2.0$brewlist--versions|grephadoophadoop2.8.12.8.2hdfs我使用的是Hadoop2.8.2。我关注了thispost配置Hadoop。另外,关注thispost将spark.yarn.archive配置为:spark.yarn.archivehdfs://localhost:9000/user/panc25/spark-jars.zip以下是我在.bash_profile中的Hadoop/Spark相关

shell - 将 hdfs 上的脚本文件传递给 impala-shell

我有一个oozie作业,它有一个shell操作。首先,shell操作以编程方式查找存储在hdfs上的某些sql脚本文件。然后尝试在impala上运行每个sql脚本。由于事先不知道我要运行的sql脚本列表,因此不能作为传递给oozie操作参数,有没有办法运行impala-shell并给它一个hdfs路径而不是linux路径? 最佳答案 Impalashell可以接受来自STDIN的查询文本。如所述here,选项-f-fquery_fileor--query_file=query_filequery_file=path_to_query

mysql - 如何在 MySQL my.cnf 中永久设置 sql-mode ="NO_ENGINE_SUBSTITUTION"

更新于2015年1月18日修复在我们最近更新到MySQL5.6.27(来自Ubuntu存储库)之后,此选项现在可以使用。所以这似乎是以前版本的MySQL的问题。原始问题随着对MySQL(5.6.20)的新升级,更新和插入失败,除非我将sql-mode设置为NO_ENGINE_SUBSTITUTION。感谢documentation,我可以从mysql终端运行以下命令并解决问题(暂时):SETGLOBALsql_mode='NO_ENGINE_SUBSTITUTION';SETSESSIONsql_mode='NO_ENGINE_SUBSTITUTION';`但是下次MySQL重新启动时

mysql - 如何在 MySQL my.cnf 中永久设置 sql-mode ="NO_ENGINE_SUBSTITUTION"

更新于2015年1月18日修复在我们最近更新到MySQL5.6.27(来自Ubuntu存储库)之后,此选项现在可以使用。所以这似乎是以前版本的MySQL的问题。原始问题随着对MySQL(5.6.20)的新升级,更新和插入失败,除非我将sql-mode设置为NO_ENGINE_SUBSTITUTION。感谢documentation,我可以从mysql终端运行以下命令并解决问题(暂时):SETGLOBALsql_mode='NO_ENGINE_SUBSTITUTION';SETSESSIONsql_mode='NO_ENGINE_SUBSTITUTION';`但是下次MySQL重新启动时

hadoop - Fi-Ware 宇宙 : Name node is in safe mode

我正在尝试删除我的Cosmos帐户中的一个文件夹,但我得到了SafeModeException:#hadoopfs-rmr/home//inputrmr:org.apache.hadoop.hdfs.server.namenode.SafeModeException:Cannotdelete/user//input.Namenodeisinsafemode 最佳答案 在启动期间,Namenode从fsimage加载文件系统状态并编辑日志文件。然后它等待数据节点报告它们的block,这样它就不会过早地开始复制block,尽管集群中已经

hadoop - AWS EMR 4.0 - 如何添加自定义 JAR 步骤以运行 shell 命令

我正在尝试使用EMR4.0.0上的步骤运行shell命令,并使用此链接作为引用-http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-hadoop-script.html但我想知道从何处将“command-runner.jar”放入“JAR位置”字段http://i.stack.imgur.com/CRicz.png我在AWSs3中保留了“command-runner.jar”并尝试从该位置加载它,在“参数”中给出了我的“example.sh”文件的s3位置,在添加步骤后它失败并给出了这个异常Exce

hadoop - 如何使用 hdfs shell 命令检查文件是否存在

我是hadoop的新手,需要一点帮助。假设如果我使用shell脚本在后台运行作业,我如何知道作业是否完成。我问的原因是,作业完成后,我的脚本必须将输出文件移动到其他位置。我如何使用hdfs检查作业是否已完成或输出文件是否存在。谢谢MRK 最佳答案 您需要小心检测以这种方式完成的工作,因为在您的工作完全完成之前可能会有输出。为了回答您的直接问题,为了测试是否存在,我通常会执行hadoopfs-ls$output|wc-l然后确保数字大于0.我的建议是你使用&&来处理移动:hadoop...myjob.jar...&&hadoopfs-

shell - 将目录传递给 hadoop streaming : some help needed

上下文是我正在尝试在AmazonEMR(WebUI)上使用我运行的bash脚本运行流式作业:-inputs3://emrdata/test_data/input-outputs3://emrdata/test_data/output-mappers3://emrdata/test_data/scripts/mapperScript.sh-reducerNONE输入目录中有子目录,这些子目录中有gzip数据文件。mapperScript.sh失败的相关部分是:forfilenamein"$input"/*;dodir_name=`dirname$filename`fname=`basen

bash - 如何在不每次调用 shell 的情况下循环 HBase shell 中的命令

我编写了一个脚本来计算每2小时有多少条记录被插入到3个单独的HBase表中。我知道它很劣质,但效果很好,我检索到了所需的结果....但是,每次它在循环中工作时,我都必须调用HBaseshell。有没有办法改进我的代码,这样我就不必这样做来加快速度?#!/bin/bashdeclare-ahbaseTables=("table1""table2""table3");foriin"${hbaseTables[@]}"doecho$i>>results.txttime=1431925200000for((x=0;x>results.txtscan'$i',{TIMERANGE=>[$time