aws-sts_草庐IT

hadoop - 通过 aws EMR 在 Kinesis 流上运行 hadoop pig 脚本

我正在尝试使用AWSEMR上的pig脚本批处理运动流中的一些数据。我只需要对流数据进行分组并将其移动到s3。我试图每隔几个小时运行一次。起初它似乎非常适合AWSDataPipeline，但我不知道如何传递迭代号以用于运动检查点。看起来没有任何方法可以增加数字以传递给pig脚本。我看过这个例子here，它涉及一个始终在线的集群和一个crontab脚本，它们会增加迭代次数。有没有一种方法可以使用我缺少的AWSDataPipeline来实现这一点？最佳答案我们确实有一个使用DataPipeline来完成您想要的示例，但它使用Hive而

流上 hadoop section samples noreferrer amazon-web-services amazon-emr amazon-kinesis amazon-data-pipeline

hadoop - 在 Hortonworks Hadoop (AWS EC2) 上访问 WebHDFS

我在AmazonEC2机器上遇到WebHDFS访问问题。顺便说一句，我已经安装了HortonworksHDP2.3。我可以使用以下http请求在浏览器(chrome)中从我的本地计算机检索文件状态:http://:50070/webhdfs/v1/user/admin/file.csv?op=GETFILESTATUS这工作正常，但如果我尝试使用?op=OPEN打开文件，它会将我重定向到我无法访问的机器的私有(private)DNS:http://:50075/webhdfs/v1/user/admin/file.csv?op=OPEN&namenoderpcaddress=:8020

上访 Hortonworks the section WebHDFS hadoop amazon-web-services amazon-ec2 hortonworks-data-platform

amazon-web-services - 在选择定价时，hadoop 分发下的 aws EMR 亚马逊标准是什么

我正在尝试计算AWSEMR服务的定价。我用谷歌搜索，但在默认的hadoop分布列下找不到什么是亚马逊标准。最佳答案假设您在http://calculator.s3.amazonaws.com/index.html谈论定价计算器，“HadoopDistribution”下拉列表中的“AmazonStandard”选项只是指AWSEMR自己的Hadoop分布(当然还有其他BigData应用程序，如Hive、Spark、Pig等)。也就是说，不是MapR分布之一，它们也受支持但具有不同的成本结构。这是EMR的默认发行版，因此您会知道您

amazon-web-services 分发 section 定价 stackoverflow hadoop amazon-emr

java - 用于获取 AWS EMR 中任务实例组实例计数的 API

我想获取AWSEMR中任务实例组实例的数量。为此，我使用Cloudwatch检查每个任务实例组实例的心跳。但是我觉得，EMR说到底是一个使用hadoop的框架，hadoop的master肯定有活任务节点的信息。任何人都可以告诉我元数据链接(或任何文件位置)以获取此信息吗？最佳答案我编写了一个Java工具来在处理过程中动态调整EMR集群的大小。它有一些代码来获取实例中的实例计数，作为它的一部分。也许这就是您要找的东西。在以下位置查看:http://www.lopakalogic.com/articles/hadoop-articl

java AWS section articles hadoop mapreduce amazon-emr elastic-map-reduce

Oracle Linux 7 (AWS) 上的 Oracle 12c 到 Hadoop 节点

我正在尝试创建一个概念证明，表明一家公司可以将他们的数据从他们的oracle12c数据库迁移到hadoop系统..为此，我在AWS上启动了一个OracleLinux7实例。我打算在上面安装Oracle12c。之后我必须创建虚拟表并将它们发送到Hadoop。这能做到吗？从我最初的研究中，我可以看到Sqoop和OracleGoldenGate可以做到这一点。如果它上线，我将不得不将数十亿条记录从oracle12c传输到HDFS。非常感谢任何帮助或建议.. 最佳答案您必须使用sqoop将oracle数据转换为hive。您可以阅读此了解更

Oracle Hadoop section sqoop oracle12c oracle-golden-gate

hadoop - 当 aws emr 核心节点在 hadoop 环境中死亡时会发生什么

我有一个包含1个主节点和2个核心节点的EMR集群。这会自动将复制因子设置为1。所以我从文档中读到的意思是，当文件上传到节点时，它仅存储在该节点上。在我的例子中，我有一个spark应用程序，它运行得很好，直到其中一个核心节点由于某种我仍在调查的原因而死掉。当该节点死亡时，我的应用程序也因以下错误而死亡:Diagnostics:Couldnotobtainblock:BP-1346795555-172.31.18.53-1503395276403:blk_1073762933_22444file=/user/hadoop/.sparkStaging/application_15035806

hadoop aws section stackoverflow apache-spark amazon-emr

amazon-web-services - 在 AWS EMR 中编辑配置文件

在哪里可以找到AWSEMR的配置文件？主要是我在寻找hue.ini文件，我启动了一个新集群，打开了hueUI，创建了新的super用户并登录。然后我看到了该区域中的所有s3存储桶，但我无法访问存储桶中的文件，我不断收到此错误-Failedtoaccesspath:"s3a://data-storage"Checkthatyouhaveaccesstoreadthisbucketandthattheregioniscorrect:BadRequest.然后我尝试按照这个将我的s3帐户添加到hue-http://gethue.com/introducing-s3-support-in-hu

amazon-web-services services section hue code hadoop amazon-s3 amazon-emr

hadoop - Flink - AWS EMR 中的 AWSS3IOException 由带有 S3A 的 BucketingSink 引起

我有一个在AWSEMR中运行的具有高并行度(400)的Flink应用程序。它使用BucketingSink(使用RocksDb后端进行检查点)获取Kafka并汇入S3。目的地使用“s3a://”前缀定义。Flink作业是一个连续运行的流式应用程序。在任何给定时间，所有工作人员加起来可能会生成/写入400个文件(由于400并行度)。几天后，其中一名worker将失败，但出现异常:org.apache.hadoop.fs.s3a.AWSS3IOException:copyFile(bucket/2018-09-01/05/_file-10-1.gz.in-progress,bucket/2

AWSS3IOException BucketingSink apache section hadoop amazon-s3 apache-flink amazon-emr

scala - 使用临时凭证从 AWS 外部通过 spark 从 s3 读取

我正在尝试通过IntelliJ从我的笔记本电脑读取s3中的文件，这样我就可以更轻松地开发我的spark作业。textFileRDD代码在EMR集群内的Zeppelin中工作，但当我在本地尝试时却不行。在Zeppelin中，我不需要设置任何spark上下文，大概是因为Zeppelin实例在AWS环境中，它为我做了这件事。我编写了代码来创建临时AWS凭证(使用我的IAM用户key)，以便我可以向spark上下文提供sessiontoken。访问key和secretkey也来自临时凭证。valsqlContext=sparkSession.sqlContextsqlContext.spark

scala spark sqlContext hadoopConfiguration sparkContext apache-spark hadoop amazon-s3 sbt

apache-spark - 如何从 spark2.3 访问 us-east-2 区域上的 Parquet 文件(使用 hadoop aws 2.7)

我们可以从当前代码访问us-east-1，但无法访问us-east-2上的parquet文件。请注意“us-east-2”连接，创建datafream在intellij上工作正常，但当我们从spark-shell尝试时它会给出400错误。我试图在sparkshell上工作/Users/test/Downloads/spark-2.3.3-bin-hadoop2.7/bin/spark-shell--jars/Users/test/Downloads/hadoop-aws-2.7.3.jar,/Users/测试/下载/aws-java-sdk-1.7.4.jarval配置=sc.hado

spark apache-spark section configuration hadoop amazon-s3