草庐IT

Play-Services

全部标签

amazon-web-services - Spark - "spark.deploy.spreadOut = false"可以在 S3 上提供性能优势

我了解将“spark.deploy.spreadOut”设置为true可以使HDFS受益,但是对于S3,设置为false是否比true更有优势? 最佳答案 如果您正在运行Hadoop和HDFS,那么使用该属性适用的SparkStandalone调度程序不会对您有好处。相反,您应该运行YARN,并且ResourceManager确定执行程序的分布方式如果您在EC2中运行独立调度程序,则设置该属性会有所帮助,默认值为true。换句话说,你从哪里读取数据不是这里的决定因素,master的部署模式是更好的性能优势将来自您尝试读取的文件数量以

amazon-web-services - EC2(持久)HDFS 和 EMR( transient )HDFS 如何通信

我已经在AmazonEC2上使用NameNode/DataNode和其他一些服务设置了一个Hadoop集群。我的摄取工作将数据带入EC2HDFS集群(比方说hdfs://ec2-hdfs/)。现在我有一个每周批量运行的管道。我正在启动一个新的AmazonEMR集群来运行我的计算。处理完成后,我将终止EMR集群。需要在EMR中运行的我的spark作业的输入位于EC2HDFS(hdfs://ec2-hdfs/)中。如何从新创建的EMR集群访问它?我相信在EMR集群启动期间应该有一些选项(bootstrap/VPC/子网)可用。 最佳答案

amazon-web-services - 在EMR集群上如何进入/etc/hadoop/conf这个路径?

我是EMR和Spark的新手。我正在执行此处提到的这些步骤https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/.在第5步中,它说复制远程AmazonEMR集群上/etc/hadoop/conf中的所有文件。。想知道如何从/etc/hadoop/conf获取这些文件。如果我的理解有误,请指正。在此先感谢并感谢。 最佳答案 通过ssh访问EMR实例,进入文件夹/etc/hadoop/conf并将所有文件复制到

amazon-web-services - 无法访问端口 7180 上的 cloudera 管理器

按照官方说明在AWSEC2实例上安装ClouderaManager:http://www.cloudera.com/documentation/archive/manager/4-x/4-6-0/Cloudera-Manager-Installation-Guide/cmig_install_on_EC2.html我成功运行了.bin包,但是当我访问IP:7180时,浏览器说我的访问被拒绝了...为什么...我试图确认cm服务器的状态:servicecloudera-scm-serverstatus。起初它说cloudera-scm-server挂了,pid文件存在日志文件显示提到“未

amazon-web-services - Kafka Connect 与 AWS Hadoop 实例的托管

对于生产类型的设置,其中TB的记录将写入KAFKA主题,使用KAFKAconnect-HDFS连接器的最佳实践是什么?我的kafka实例在AWS主机名a.b.c.d上运行,我的hadoop名称节点在AWS主机名p.q.r.s上。出于开发/POC的目的,我们在运行kafka实例的同一个盒子中保持融合,即在a.b.c.d上。HDFS集群大小为500GB。但是对于集群大小为20-30TB的生产类型设置,是否建议在与KAFKA实例相同的盒子或名称节点盒子或单独的盒子中保持汇合?在这样的生产案例中,confluent需要多少单独的磁盘大小? 最佳答案

amazon-web-services - AWS Glue - Avro snappy 压缩读取错误 - HIVE_CANNOT_OPEN_SPLIT : Error opening Hive split

在使用AWSGlue在S3中使用snappy压缩(gzip/bzip2压缩也有同样的错误)保存Avro文件后,当我尝试使用AWSCrawler读取athena中的数据时,我收到以下错误-HIVE_CANNOT_OPEN_SPLIT:打开Hive时出错拆分-使用org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat:不是数据文件。知道为什么我会收到此错误以及如何解决吗? 最佳答案 谢谢。通过在执行期间将原生sparkavrojar文件附加到胶水作业并使用原生spark读/写

amazon-web-services - 提交本地 spark 作业到 emr

我正在关注关于向emr集群提交spark作业的amazon文档https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/按照说明进行操作后,由于未解析的地址和类似的消息,频繁的故障排除失败。ERRORspark.SparkContext:ErrorinitializingSparkContext.java.lang.IllegalArgumentException:java.net.UnknownHostException:ip-172-32-1-231.us-e

amazon-web-services - 使用 whirr 启动集群

我是whirr和AWS的新手,所以如果我问的问题很愚蠢,请提前致歉。我遵循指示here设置whirr和bin/whirrlaunch-cluster--confighadoop.properties失败并出现以下情况:[~/src/cloudera/whirr-0.1.0+23]$bin/whirrversionrvm:ruby-1.8.7-p299ApacheWhirr0.1.0+23[~/src/cloudera/whirr-0.1.0+23]$bin/whirrlaunch-cluster--confighadoop.propertiesrvm:ruby-1.8.7-p299La

amazon-web-services - 登录 Elastic Mapreduce 的最佳实践 - AWS

我计划将AmazonEMR用于SparkStreaming应用程序。亚马逊提供了一个很好的界面来显示标准错误和Controller日志。但是对于流式应用程序,我不确定如何管理日志。亚马逊将数据记录到/var/log/hadoop/steps/和Spark的类似地方。http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-manage-view-web-log-files.html我想知道我们如何轮换日志并且仍然可以通过awsemrWeb界面访问。我们可以通过配置hadoop-log4j轻松更改日志轮换策

amazon-web-services - 从 hadoop 访问 amazon S3 bucket 从命令行指定 SecretAccessKey

我正在尝试使用hdfs命令访问amazonS3存储桶。这是我运行的命令:$hadoopfs-lss3n://:@/tpt_files/-ls:InvalidhostnameinURIs3n://:@/tpt_filesUsage:hadoopfs[genericoptions]-ls[-d][-h][-R][...]我的SecretAccessKey包含“/”。这可能是造成这种行为的原因吗?与此同时,我在此服务器上安装了awscli,我可以使用awscli毫无问题地访问我的存储桶(在.aws/credentials中配置的AccessKeyId和SecretAccessKey):aws