草庐IT

integrated-pipeline-mode

全部标签

hadoop - 在配置 EMR 后,如何将文件从 S3 复制到 Data Pipeline 中的 Amazon EMR?

我正在AWS中创建一个数据管道来运行Pig任务。但是我的Pig任务需要EMR中的附加文件。在创建集群之后和运行pigtasked之前,我如何告诉DataPipeline将文件复制到EMR?我只需要运行这两个命令。hdfsdfs-mkdir/somefolderhdfsdfs-putsomefile_from_s3/somefoler/ 最佳答案 如果您可以选择修改Pig脚本,则可以运行mkdir并将命令放在脚本的顶部(https://pig.apache.org/docs/r0.9.1/cmds.html)。否则,您可以使用在Emr

hadoop - 输出状态为 : ACCEPTED in YARN MODE 的 Spark Hang

我的Spark环境Spark->2.1.0Hadoop->2.8.1Eclipse->Neon2我在yarn模式下获取spark上下文时卡住了,如何在yarn模式下获取spark上下文,请帮我解决。我的Hadoop、Yarn和Spark安装成功。$jps3200NameNode5264ExecutorLauncher5328CoarseGrainedExecutorBackend3555SecondaryNameNode5316CoarseGrainedExecutorBackend7590Jps3357DataNode4045NodeManager5118SparkSubmit372

hadoop - Spark : yarn cluster mode can't read hdfs path (No such file or directory)

我在yarn模式下使用spark提交,但我收到了这个错误:显然我的输入路径hdfs://缺少一个'/'我正在通过hdfs://master:8020/usr/jimmy/Test/,但是日志输出是日志文件中的hdfs:/master:8020/usr/jimmy/Test/Personal1(Personal1在我的代码中指定)缺少的'/'显然是问题所在我能做什么?请帮帮我我的命令:./bin/spark-submit--masteryarn-cluster--classMovie.Movies/usr/jimmy/Move.jarhdfs://master:8020/usr/jimm

hadoop - 在 Hbase-Hive Integration 中删除值

我正在使用Hbase进行数据存储,我有Hive表可以使用存储处理程序从Hbase读取数据。我正在使用复合ROWKEY(Struct(region,country,date,id))。有没有办法从Hbase-HiveIntegaration中删除特定数据,无论是从Hbase还是从HIVe??是否可以使用HBaseshell命令或Hive查询来完成类似下面的操作deletefromtablewhereregion=EUandcountry=USanddate=2015-06-11;使用Hive0.14提前致谢。 最佳答案 基于https

amazon-web-services - AWS Data Pipeline 中有任何东西可以通过决策脚本停止执行特定事件吗?

我们的数据管道中有5个管道,它们在以下基础上执行:管道1-管道4=每天管道5-月底。我们正在考虑为管道5创建单独管道的选项,因为它对其他管道没有任何依赖性。有没有什么办法可以执行除管道5之外的所有管道,就像我们在OOZIE中所做的那样,它可以成功地忽略管道5的执行并完成管道而没有任何“错误”/“等待依赖项”状态? 最佳答案 您最好创建多个管道并将它们设置在不同的时间表上。如果您想让事情变得有趣,您可以使用Cloudwatch调度和AWSLambda以类似cron的方式安排管道创建/删除。您还可以使用AWSStep函数来定义每个组件的

json - AWS Data Pipeline - 在创建 EMR 期间设置 Hive 站点值

我们正在将我们的数据管道版本从3.3.2升级到5.8,因此旧AMI版本上的那些引导操作已更改为使用配置设置并在分类/属性定义下指定它们。所以我的Json如下所示{"enableDebugging":"true","taskInstanceBidPrice":"1","terminateAfter":"2Hours","name":"ExportCluster","taskInstanceType":"m1.xlarge","schedule":{"ref":"Default"},"emrLogUri":"s3://emr-script-logs/","coreInstanceType"

apache-spark - Apache Spark : Differences between client and cluster deploy modes

TL;DR:在SparkStandalone集群中,客户端和集群部署模式有何区别?如何设置我的应用程序要运行的模式?我们有一个包含三台机器的SparkStandalone集群,它们都装有Spark1.6.1:一台主机,也是我们使用spark-submit运行我们的应用程序的地方2台相同的worker机器来自SparkDocumentation,我读到:(...)Forstandaloneclusters,Sparkcurrentlysupportstwodeploymodes.Inclientmode,thedriverislaunchedinthesameprocessasthecl

hadoop - 如何查看一个列的多个版本 - HBASE HIVE Integration

我创建了一个指向HBASE表顶部的外部配置单元表。我了解HBASE存储列的多个版本。我的理解是HBASE上的配置单元查询将从HBASE中获取列的最新版本。有没有一种方法可以提及要检索的列的版本(VERSIONS或TIMERANGEhbase子句)? 最佳答案 来自HiveHBaseintegrationdocumentation:ThereiscurrentlynowaytoaccesstheHBasetimestampattribute,andqueriesalwaysaccessdatawiththelatesttimestam

hadoop - 在 Oozie 中覆盖 fs.permissions.umask-mode

我正在运行一个JavaOozie操作,它运行删除和创建文件夹的常用prepare命令。创建的文件夹的umask为022(集群默认值),但我希望它具有002。在工作流的job.properties中,我有fs.permissions.umask-mode=002。如果我在作业运行时查看传递给操作的配置,则不会使用此值,而是使用默认的umask022。fs.permissions.umask-mode=002未在Ambari中锁定,因此可以更改,并且job.properties中的其他变量已正确传播。我也曾尝试将umask属性放在其他地方,例如包含操作的子工作流中的global标记中,以及

hadoop - 运行 MR 作业时出现 "Unable to verify integrity of data"

我正在使用AmazonElasticMapReduce运行一个相对较大的MR作业。我在小数据集上运行了很多次作业,没有问题。但是当尝试在大型数据集上运行它时,出现以下异常:Error:com.amazonaws.AmazonClientException:Unabletoverifyintegrityofdatadownload.Clientcalculatedcontentlengthdidn'tmatchcontentlengthreceivedfromAmazonS3.Thedatamaybecorrupt.我用谷歌搜索了一下,得到的唯一建议是设置以下内容:System.setP