我正在使用亚马逊的弹性map缩减。我正在进入hadoop主节点并执行类似的脚本。$EMR_BIN/elastic-mapreduce--jobflow$JOBFLOW--ssh.它让我进入主节点并运行配置单元脚本。hivescript包含以下几行hiveaddjarjoda-time-1.6.jar;addjarEmrHiveUtils-1.2.jar;和一些创建配置单元表的命令。该脚本运行良好并创建了配置单元表和其他所有内容,但返回到我运行脚本的提示。我如何在配置单元提示符下将它sshed到hadoop主节点。 最佳答案 考虑使用
我正在尝试在HDP集群上运行简单的oozie作业。执行oozie后,job保持Running状态。这是我的Workflow.xml${jobTracker}${nameNode}sqoopimport--connectjdbc:mysql://localhost:3306/test--tabletesting--split-byerr_dt--hive-import--hive-tabletesting-m1hive-site.xmlmysql-connector-java.jarActionfailed以下是正在生成的日志..2015-04-0714:33:32,792INFOAct
我尝试为yelp作业运行以下pig命令:--*******PIGLATINSCRIPTforYelpAssignmet******************--0.getfunctiondefinedforCSVloaderregister/usr/lib/pig/piggybank.jar;defineCSVLoaderorg.apache.pig.piggybank.storage.CSVLoader();--Thedata-fujarfilehasaCSVLoaderwithmoreoptions,likereadingmultilinerecords,--butforthisas
我正在尝试通过Gremlinshell安装hadoop-gremlin和spark-gremlin。我下载了Gremlinconsole3.2.0-incubating.当我运行bin/gremlin.sh时,gremlin控制台启动时没有错误。但是,我无法安装spark-gremlin或hadoop-gremlin。gremlin>:installorg.apache.tinkerpopspark-gremlin3.2.0-incubating==>ErrorgrabbingGrapes--[unresolveddependency:com.github.jeremyh#jBCryp
我有第一个要求,我必须检查文件是否存在于给定的HDFS位置。如果文件存在,我必须测试文件的大小是否大于200字节。根据这两个结果,我必须向用户发送电子邮件通知。我可以借助下面的代码检查文件是否存在${fs:exists("/user/cloudera/trdat/test.txt")}我可以借助下面的代码检查文件大小${fs:fileSize("/user/cloudera/trdat/test.txt")gt200*B}我必须创建一个工作流程来检查文件是否存在,如果不存在,则发送电子邮件通知“文件不存在”,就像向用户发送该消息一样。如果存在,那么我们必须检查文件大小是否大于200字节
我正在用intelligi编写一个spark-scala程序,我的代码基本上是从oracle中获取表格并将它们作为文本文件存储在hdfsinsert_df.rdd.saveAsTextFile("hdfs://path")。我试过这种方法,但没有用valscript_sh="///samplepath/file_creation_script.sh".!但是我要对生成的文本文件进行一些转换,我为此编写了一个shell脚本。我不想分别运行sparkjar文件和.sh文件。请告诉我是否有任何方法可以通过程序调用shell脚本。 最佳答案
我有一个shell脚本可以将数据从MySQL导入到hdfs即sqoopshell脚本。我想使用oozie来安排sqoop导入作业。脚本有以下sqoop查询sqoopimport--connect${domain}:${port}/${database}--username${username}--password${password}--query"select*from${table}where\$CONDITIONS"-m1--hive-import--hive-database${hivedatabase}--hive-table${table}--target-dir/user
当我删除hadoop集群设置文件夹时,我的spark-shell工作得很好,但是,如果我尝试使用hadoop集群设置文件夹,那么spark-shell会产生各种错误,例如“实例化'org.apache.spark时出错.sql.hive.HiveSessionState'inspark"即使我没有在任何地方配置配置单元。请注意,即使我尝试关闭hadoop和spark的所有集群,但即使是spark-shell也会产生以下错误: 最佳答案 运行:mkdir/user/$whoami/spark-warehouse然后运行:spark-s
我正在创建一个提示脚本,用于验证输出目录是否存在于hdfs目录中。这是我想出来的whiletrue;doread-p"Whatisthetablename?"table_namecase"$table_name"in*)if(($(hdfsdfs-test-d/user/hive/bar/foo/$test_table)));thenecho"ok";elseecho"notok";fi;;esacdone这是行不通的。我没有收到任何错误,但如果条件为真,输出总是“不正常”。 最佳答案 您的初始编辑存在一些违规行为(句法/语义)。c
通过在命令行上使用以下命令,我们可以获得oozie作业的作业详细信息,即使它仍在进行中。exportOOZIE_URL=http://..../oozieooziejob-info0177204-172227110941438-oozie-oozi-Woozie工作流正在运行,在最后一个shell操作中,我试图将作业信息详细信息捕获到一个文件中。job.sh------------job_id=${1}exportOOZIE_URL=http://..../oozieooziejob-infojob_id>>/tmp/job_id.txt但是上面的命令不起作用。有没有办法,我们如何在正