shell-mode

shell - Oozie shell 操作未作为提交用户运行

我编写了一个Oozie工作流，它运行BASHshell脚本来执行一些配置单元查询并对结果执行一些操作。该脚本运行但在访问某些HDFS数据时抛出权限错误。提交Oozie工作流的用户有权限，但脚本以yarn用户身份运行。是否可以让Oozie以提交工作流的用户身份执行脚本？Hive和Java操作都作为提交的用户执行，只是shell的行为不同。这是我的Oozie操作的粗略轮廓${jobTracker}${nameNode}${WorkflowRoot}/hive-site.xmlscript.sh${WorkflowRoot}/script.sh我正在运行Oozie4.1.0和HDP2.1。

scala - 如何列出 Spark Scala shell 中 HDFS 位置中的所有 csv 文件？

这样做的目的是为了在HDFS的第二个位置操作和保存每个数据文件的副本。我会用RddName.coalesce(1).saveAsTextFile(pathName)将结果保存到HDFS。这就是为什么我想单独处理每个文件，尽管我确信性能不会那么高效。但是，我还没有确定如何将CSV文件路径列表存储到字符串数组中，然后使用单独的RDD遍历每个路径。让我们使用以下匿名示例作为HDFS源位置:/data/email/click/date=2015-01-01/sent_20150101.csv/data/email/click/date=2015-01-02/sent_20150102.csv/

scala Spark section code iter hadoop apache-spark hdfs

shell - 运行 Hbase shell 时出错

我本地环境:OSX10.9.2，Hbase0.98.0，Java1.6conf/hbase-site.xmlhbase.rootdirhdfs://127.0.0.1:9000/hbaseneedtorundfs-->file:///Users/apple/Documents/tools/hbase-rootdir/hbasehbase.zookeeper.property.dataDir/Users/apple/Documents/tools/hbase-zookeeper/zookeeperconf/hbase-env.shexportJAVA_HOME=$(/usr/libexe

时出 shell java hbase CachingCallSite hadoop

configuration - 如何针对远程集群运行 HBase shell

我在我的工作站上以伪分布式模式运行HBase。我们还在集群上运行HBase。使用HBaseshell，我想从我的工作站访问集群上运行的HBase实例。我想在不登录其中一台集群机器的情况下执行此操作。使用Hadoop，您可以通过指定-conf参数并提供hadoop-site.xml的替代版本在远程集群上运行作业。HBaseshell是否有等效项？我在我的工作站和集群机器上运行clouderacdh3u3。最佳答案更改以下配置文件。对于hadoop:core-site.xml、mapred-site.xml。对于hbase:hbas

configuration HBase section site hadoop apache-zookeeper cloudera

hadoop - 如何使用两个版本的spark shell？

我的hortonworks集群上安装了Spark1.6.2和Spark2.0。这两个版本都安装在5个节点的Hadoop集群中的一个节点上。每次我启动spark-shell我得到:$spark-shellMultipleversionsofSparkareinstalledbutSPARK_MAJOR_VERSIONisnotsetSpark1willbepickedbydefault当我检查我得到的版本时:scala>sc.versionres0:String=1.6.2如何启动其他版本(Spark2.0的spark-shell)？最佳答案

hadoop spark section code SPARK_MAJOR_VERSION apache-spark version

hadoop - 为什么 ./bin/spark-shell 给出 WARN NativeCodeLoader : Unable to load native-hadoop library for your platform?

在MacOSX上，我使用以下命令从源代码编译了Spark:jacek:~/oss/spark$SPARK_HADOOP_VERSION=2.4.0SPARK_YARN=trueSPARK_HIVE=trueSPARK_GANGLIA_LGPL=truexsbt...[info]Setcurrentprojecttoroot(inbuildfile:/Users/jacek/oss/spark/)>;clean;assembly...[info]Packaging/Users/jacek/oss/spark/examples/target/scala-2.10/spark-example

hadoop NativeCodeLoader section spark apache-spark

shell - hadoop fs -put 命令

我已经使用ClouderaCDH存储库在CentOS上构建了单节点Hadoop环境。当我想将本地文件复制到HDFS时，我使用了命令:sudo-uhdfshadoopfs-put/root/MyHadoop/file1.txt/但是，结果让我很郁闷:put:'/root/MyHadoop/file1.txt':Nosuchfileordirectory我确定这个文件确实存在。请帮帮我，谢谢! 最佳答案作为用户hdfs，您是否有权访问/root/(在您的本地硬盘中)？通常你不会。在尝试将其复制到HDFS之前，您必须将file1.txt

hadoop shell code section file1 hdfs put

shell - 如何只列出HDFS中的文件名

我想知道是否有任何命令/表达式可以只获取hadoop中的文件名。我只需要获取文件名，当我执行hadoopfs-ls时，它会打印整个路径。我在下面尝试过，但只是想知道是否有更好的方法。hadoopfs-ls|cut-d''-f17 最佳答案以下命令将只返回文件名:hdfsdfs-stat"%n"my/path/*:添加于2021年2月4日其实最近几年我都在用hdfsdfs-ls-d我的/路径/*|awk'{print$8}'和hdfsdfs-ls我的/路径|grep-e"^-"|awk'{print$8}'

shell HDFS section code hadoop

hadoop - hadoop中 "uber mode"的作用是什么？

大家好，我是一名大数据新手。我在整个互联网上进行了搜索，以找到super模式到底是什么。我搜索得越多，我就越困惑。任何人都可以帮助我回答我的问题吗？优步模式有什么作用？它在mapred1.x和2.x中的工作方式是否不同？我在哪里可以找到它的设置？最佳答案 Hadoop2中的UBER模式是什么？通常映射器和缩减器将由ResourceManager(RM)运行，RM将为映射器和缩减器创建单独的容器。Uber配置，将允许在与ApplicationMaster(AM)相同的进程中运行映射器和缩减器。优步职位:Uber作业是在MapRedu

hadoop amp 射器 strong section mapreduce

hadoop - 如何知道在 YARN 客户端模式下带有 spark-shell 的 ClosedChannelException 的原因是什么？

我一直在尝试在YARNclient模式下运行spark-shell，但我遇到了很多ClosedChannelException错误。我正在为Hadoop2.6使用spark2.0.0build。以下是异常(exception)情况:$spark-2.0.0-bin-hadoop2.6/bin/spark-shell--masteryarn--deploy-modeclientSettingdefaultloglevelto"WARN".Toadjustlogginglevelusesc.setLogLevel(newLevel).16/09/1314:12:36WARNutil.Nat

ClosedChannelException spark-shell scala spark apache hadoop apache-spark spark-streaming hadoop-yarn

262 263 264265266 267 268