shell-mode

shell - 如何使用 Cronjob 查看 shell 脚本执行

我目前正在运行一个cron作业以在特定时间间隔后安排我的shell脚本，但我无法看到我的shell脚本执行和日志我怎么能看到它。谢谢最佳答案您可以使用重定向符号(>)将stdout和/或stderr重定向到日志文件。例如:00***/path/to/shell-script.sh>/tmp/shell-script.log2>&1地点:00***表示脚本将在每天午夜运行/path/to/shell-script.sh-脚本路径>表示将流重定向到文件，后跟重定向符号2>&1表示文件描述符1是标准输出(stdout)。文件描述符2是

shell - 脚本没有完成执行，但 cron 作业再次开始

我正在尝试运行将执行我的shell脚本的cron作业，我的shell脚本包含hive和pig脚本。我将cron作业设置为每2分钟执行一次，但在我的shell脚本完成之前，我的cron作业再次启动是否会影响我的结果，或者一旦脚本完成执行，它就会启动。我在这里有点进退两难。请帮忙。谢谢最佳答案我认为有两种方法可以更好地解决这个问题，长路和短路:漫长的道路(可能是最正确的):使用像Luigi这样的东西管理作业依赖性，然后使用Cron运行它(它不会运行多个相同的作业)。Luigi将为您处理所有作业依赖项，您可以确保特定作业只执行一次。设

shell cron section hadoop hive apache-pig

hadoop - Hadoop 从哪里获取 linux shell 用户名和组映射的用户名和组映射？

目前我正在做一个项目来增强Hadoop集群的安全性。最终我将使用Kerberos和Sentry进行身份验证和授权。用户名和组映射将来自AD/LDAP(？)，我认为是这样。但现在我只是在学习和尝试。我有一个问题，我还没有弄清楚是用户名/组映射信息从何而来？据我所知，Hadoop没有用户名和组名，用户名和组名来自客户端，无论是本地客户端计算机还是Kerberos领域。但这对我来说有点模糊，我可以在这里获得实现细节吗？这些信息是来自HDFS客户端所在的机器还是来自namenode上的linuxshell用户名和组？或者它取决于上下文-甚至与数据节点相关？如果数据节点和名称节点在本地框中具有不

hadoop section code HADOOP_USER_NAME hdfs hadoop2

hadoop - Kryos/Java 序列化程序的 Spark-shell --conf 选项

我需要使用sparkhelppage中提到的registerKryoClasses方法启动带有自定义类的sparkshell.现在如页面中所述，我无法在启动sparkshell后重新创建sc变量，因此需要在启动spark-shell命令时提供选项--conf。--conf的选项值应该是什么，以便它等同于以下更新:conf.registerKryoClasses(Array(classOf[ArrayBuffer[String]],classOf[ListBuffer[String]])) 最佳答案使用Javaserializer而

Spark-shell hadoop section spark conf apache-spark apache-spark-mllib

hadoop - 在 Oozie 中覆盖 fs.permissions.umask-mode

我正在运行一个JavaOozie操作，它运行删除和创建文件夹的常用prepare命令。创建的文件夹的umask为022(集群默认值)，但我希望它具有002。在工作流的job.properties中，我有fs.permissions.umask-mode=002。如果我在作业运行时查看传递给操作的配置，则不会使用此值，而是使用默认的umask022。fs.permissions.umask-mode=002未在Ambari中锁定，因此可以更改，并且job.properties中的其他变量已正确传播。我也曾尝试将umask属性放在其他地方，例如包含操作的子工作流中的global标记中，以及

permissions umask-mode code umask hadoop oozie

shell - HBase、hadoop、hive通过hive访问Hbase的正确设置方法是什么？

我在配置和安装hbase/hadoop/hive时遇到问题。到目前为止，我在装有ubuntu14.04.3LTS的虚拟机上做了什么:像这样安装版本为jdk1.8.0_60的jdk:https://askubuntu.com/questions/56104/how%E2%80%8B-can-i-install-sun-o%E2%80%8Bracles-proprietary-j%E2%80%8Bava-jdk-6-7-8-or-jre%E2%80%8B获取hadoop-2.6.1并解压.tar文件。之后我做了一些配置:核心站点.xml:fs.default.namehdfs://loca

hive hadoop property gt lt shell hbase

shell - Oozie - Hadoop 命令未执行 (Shell)

我正在运行一个包含hadoop命令的shell脚本。执行相同时出现以下错误Mainclass[org.apache.oozie.action.hadoop.ShellMain],exitcode[1]我正在使用ClouderaHue-Oozie运行一个简单的shell脚本但是当脚本没有hadoop命令时，它会成功执行。我设置了oozie.use.system.libpath=true并且可以看到我的库在user/oozie/share/lib/下面是我尝试运行的shell脚本#!/bin/bash$(hadoopfs-mkdir/)工作流.xml${jobTracker}${nameN

Hadoop shell gt lt cloudera oozie hue

hadoop - 来自不同用户的 spark-shell 导致错误

我创建并配置了小型hadoop集群(1主从)，并安装了spark。我使用了预构建的spark-1.6.0-bin-hadoop2.6和hadoop-2.7。当我运行示例时$./bin/spark-submit--classorg.apache.spark.examples.SparkPi\--masteryarn\--deploy-modecluster\--driver-memory4g\--executor-memory2g\--executor-cores1\--queuethequeue\lib/spark-examples*.jar\10来自hduser(拥有/usr/loc

spark-shell hadoop code spark section apache-spark hadoop-yarn

hadoop - 如何在 EMR 集群的所有节点上执行 shell 脚本？

是否有合适的方法在正在运行的EMRhadoop集群中的每个节点上执行shell脚本？我寻找的一切都会带来引导操作，但这只适用于集群启动时，不适用于正在运行的集群。我的应用程序使用的是python，所以我目前的猜测是使用boto列出集群中每个节点的IP，然后遍历每个节点并通过ssh执行shell脚本。有没有更好的办法？最佳答案如果您的集群已经启动，您应该使用步骤。这些步骤是在集群启动后执行的，因此从技术上讲它似乎就是您要查找的内容。注意，步骤仅在主节点上执行，您应该以某种方式连接到其余节点以修改它们。Stepsarescripts

有节何在 section strong stackoverflow hadoop amazon-web-services amazon-emr

java - 无法存储 Hive Metastore 服务器和 Hive shell

我用所有必需的属性更新了hive-site.xml，但我无法理解此错误发生的位置。如何将Metastore连接到HiveShell并启动Hive？在更新元存储属性之前，配置单元shell工作正常。谁能解决这个错误？[hadoop@hduserconf]$hive--servicemetastoreStartingHiveMetastoreServer17/01/0218:01:01WARNconf.HiveConf:HiveConfofnamehive.metastore.localdoesnotexistorg.apache.thrift.transport.TTransportEx

Hive Metastore gt lt property java hadoop apache-zookeeper

256 257 258259260 261 262