AWS-EC_草庐IT

hadoop - 使用 Whirr 启动 EC2 集群

我目前正在学习JefferyBreen的教程。当我想用Whirr启动ec2集群时遇到了一些麻烦。我使用的是cloudera演示vmcdh3u4。我下载了whirr0.8.1版本这是我运行的所有命令:$wgethttp://mirror.switch.ch/mirror/apache/dist/whirr/whirr-0.8.1/whirr-0.8.1.tar.gz$tarzxfwhirr-0.8.0.tar.gz$exportPATH="~/whirr-0.8.0/bin:$PATH"$exportAWS_ACCESS_KEY_ID=MYACCESSKEY$exportAWS_SECR

hadoop - AWS EMR CLI - 将参数传递给 HIVE

我正在使用aws的emrrubycli来生成Hadoop集群，我正在尝试包含要在其他地方托管的HIVE脚本中使用的参数，如下所示:./elastic-mapreduce--create...--args-d,DT=2013-01-26'DT'在我的HadoopJarStep.Args数组中显示令人满意，所以我尝试将它包含在HIVE脚本中，如下所示:...tblproperties('dynamodb.table.name'=${DT},...但我很快就明白了:ParseError:line8:28mismatchedinput'$'expectingStringLiteralnea

传递 hadoop section code pre amazon-web-services arguments hive elastic-map-reduce

hadoop - AWS EC2 - Cloudera Manager - 停止实例

我已经使用cloudera管理器在AmazonEC2上设置了hadoop集群。Cloudera管理器创建了两个实例，并且都按预期工作。我试图通过AWS控制台停止cloudera创建的实例，但没有停止选项。我们只有“终止”和“重启”。我不想终止这些实例，因为我想重用这些实例。如何停止这些实例？最佳答案由于您的实例来自实例存储支持的AMI，您将只能重启和终止实例。查看“根设备”下的管理控制台以确认情况是否如此。要解决此问题，您可以从您的实例创建一个AMI，然后使用新的AMI重新启动您的环境，这样您就可以选择停止您的实例。

Cloudera Manager section stackoverflow 实例 hadoop amazon-ec2

java - AWS Elastic Map Reduce 中线程 "main"java.lang.NoClassDefFoundError 中的异常

我正在尝试使用JAR文件在AWSElasticMapReduce上运行hadoop作业。我正在使用一个名为EJMLhttps://code.google.com/p/efficient-java-matrix-library/wiki/EjmlManual的库.我使用project-->BuildPath-->ConfigureBuildPath-->AddExtrenalJarsinEclipse将它作为外部库包含在我的项目中。当我在本地计算机上运行该项目时，一切都很好。但是在AWS上我得到了错误，Exceptioninthread"main"java.lang.NoClassDef

NoClassDefFoundError java section code hadoop amazon-web-services mapreduce elastic-map-reduce

hadoop - 如何使用 AWS 自动缩放？

我是AWS世界的新手，我正在尝试自动扩展/缩减我的Hadoop集群。我很困惑，因为有太多新事物和自动缩放，CloudWatch服务在我看来几乎一模一样。任何人都可以帮助我理解以下内容。这两种API都使我们能够监控集群，但这两者之间有什么区别？我们可以使用Ganglia之类的工具来监控集群，使用AWS命令生成或关闭实例。那么为什么要使用autoscaling、cloudwatch呢？使用它们有什么好处？要使用autoscaling或cloudwatch，我们必须下载并安装Java/PythonSDK。在哪里安装这些SDK？在AWS之外的我的桌面上还是在AWS的一个实例上？我在Amaz

hadoop AWS code CloudWatch blockquote amazon-web-services autoscaling amazon-cloudwatch

hadoop - 在 AWS EMR 上用 Lipstick 运行 Pig

我正在使用script-runner.jar运行AWSEMRPig作业，如下所述:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-hadoop-script.html现在，我想连接Netflix的Lipstick来监控我的脚本。我设置了服务器，并在此处的wiki中:https://github.com/Netflix/Lipstick/wiki/Getting-Started我不太清楚如何执行最后一步:hadoopjarlipstick-console-[version].jar-Dlipsti

上用 Lipstick code jar hadoop amazon-web-services apache-pig elastic-map-reduce netflix

security - 在 Hadoop 环境中使用多个 AWS key

在Hadoop环境中拥有多个AWSkey的解决方法是什么？我的hadoop作业需要访问两个不同的S3存储桶(两个不同的key)。尝试使用“凭据”提供者，但看起来非常有限。它以小写形式存储所有键，因此我不能将“s3a”用于一项工作而将“s3n”用于另一项工作。例如:对于s3a，它寻找:fs.s3a.access.keyfs.s3a.secret.key对于s3n:fs.s3n.awsAccessKeyIdfs.s3n.awsSecretAccessKey但是，如果我使用“fs.s3n.awsAccessKeyId”创建提供程序，它会存储为“fs.s3n.awsaccesskeyid”，因

security Hadoop section key code amazon-web-services amazon-s3

amazon-web-services - Kafka Connect 与 AWS Hadoop 实例的托管

对于生产类型的设置，其中TB的记录将写入KAFKA主题，使用KAFKAconnect-HDFS连接器的最佳实践是什么？我的kafka实例在AWS主机名a.b.c.d上运行，我的hadoop名称节点在AWS主机名p.q.r.s上。出于开发/POC的目的，我们在运行kafka实例的同一个盒子中保持融合，即在a.b.c.d上。HDFS集群大小为500GB。但是对于集群大小为20-30TB的生产类型设置，是否建议在与KAFKA实例相同的盒子或名称节点盒子或单独的盒子中保持汇合？在这样的生产案例中，confluent需要多少单独的磁盘大小？最佳答案

amazon-web-services services section 的汇合 hadoop apache-kafka hdfs apache-kafka-connect

apache-spark - 我应该使用哪个版本的 hadoop-aws

我在EMR5.14(hadoop2.8.3)上的Yarn上运行spark作业。我可以使用更高版本的hadoop-aws(例如2.9或3.1)来受益于s3a协议(protocol)的最新优化吗？最佳答案无论EMR为您提供什么，您都需要坚持使用。他们的s3://连接器是AWS开发的，可能是您最安全的选择。FWIW，自2.8.3以来的s3a用于输入性能。与后来的版本没有太大变化，除了在3.1中，如果您将fs.s3a.experimental.fadvise保留为normal，它会自动从优化顺序IO切换到随机IO(列数据)在第一个向后查

apache-spark hadoop-aws section code 化顺 hadoop amazon-s3 amazon-emr

amazon-web-services - AWS Glue - Avro snappy 压缩读取错误 - HIVE_CANNOT_OPEN_SPLIT : Error opening Hive split

在使用AWSGlue在S3中使用snappy压缩(gzip/bzip2压缩也有同样的错误)保存Avro文件后，当我尝试使用AWSCrawler读取athena中的数据时，我收到以下错误-HIVE_CANNOT_OPEN_SPLIT:打开Hive时出错拆分-使用org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat:不是数据文件。知道为什么我会收到此错误以及如何解决吗？最佳答案谢谢。通过在执行期间将原生sparkavrojar文件附加到胶水作业并使用原生spark读/写

HIVE_CANNOT_OPEN_SPLIT amazon-web-services section spark hadoop pyspark aws-glue