草庐IT

amazon-athena

全部标签

java - Amazon (EMR) 使用哪个 Hadoop 版本?

我想创建一个Hadoop作业并在EC2MapReduce上运行它。另外,我想在上传到EC2之前在本地运行该作业。我应该在本地安装哪个版本/类型的Hadoop?我可以使用ClouderaVM吗?亚马逊使用哪个Hadoop版本? 最佳答案 AmazonElasticMapReduce支持Hadoop0.18、0.20和0.20.205(http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/EnvironmentConfig_AMIVersion.

hadoop - Amazon Elastic Mapreduce 默认配置

Hadoop默认配置(core-site.xml、yarn-site.xml等)是否由Amazon发布?我看到了一些已发布的参数,但没有看到全部默认配置。 最佳答案 您将在以下链接的amazonemr文档页面找到默认配置http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/TaskConfiguration_H2.html您可以找到触发作业的配置。您可以访问保存日志的S3位置。在那里你会找到j-yourjoblogsfilelocation/jobs/jo

java - 从 ID Amazon EMR 获取集群对象

我通过GUI屏幕启动了一个EMR集群。集群启动后,我可以看到ID。如何获取表示具有该ID的集群的类Cluster的对象?我正在使用Java与EMR交互。 最佳答案 您不能只运行一条命令来获取集群的身份。以下是读取所有故障集群ID的算法的工作示例。AWSCredentialscredentials;credentials=newBasicAWSCredentials("myAccessKey","mySecretKey");AmazonElasticMapReduceClientemrClient;emrClient=newAmazo

hadoop - 重启 Amazon EMR 集群

我正在使用AmazonEMR(Hadoop2/AMI版本:3.3.1)并且我想更改默认配置(例如复制因子)。为了使更改生效,我需要重新启动集群,这就是我的问题开始的地方。怎么做?我在./.versions/2.4.0/sbin/stop-dfs.sh找到的脚本不起作用。从文件./.versions/2.4.0/etc/hadoop/slaves无论如何都是空的。init.d中有一些脚本:$ls-l/etc/init.d/hadoop-*-rwxr-xr-x1rootroot477Nov802:19/etc/init.d/hadoop-datanode-rwxr-xr-x1rootroo

amazon-web-services - 将文件从 SFTP 复制到 Amazon S3

我正在尝试将文件从SFTP复制到S3。我不想登陆文件中间服务器,请给我建议方法。 最佳答案 我假设您无权访问/控制sftp服务器。如果您确实有访问权限,那就很容易了。否则,选择您选择的语言并流式传输数据。例如,对于Python,您可以使用paramiko的sftp.getfo()并将该文件流指向Boto的s3.key.send_file()。这使您无需将文件下载到磁盘。但是,无法告诉随机SFTP服务器将其发送到S3。 关于amazon-web-services-将文件从SFTP复制到Am

hadoop - 文件在 Amazon EMR 中不存在,即使它尝试上传它

我使用AmazonEMR创建了一个emr-4.0.0集群:但是,每当我尝试在其上提交spark应用程序时,它都会失败并出现以下错误:文件不存在:hdfs://ip-xx-xx-xxx-xx.ec2.internal:8020/user/hadoop/.sparkStaging/application_1441035668468_0001/spark-assembly-1.4.1-hadoop2。6.0-amzn-0.jar即使在日志的前面它上传了这个完全相同的文件而没有发出任何错误消息:2015-08-3115:43:29,070INFO[main]yarn.Client(Loggin

java - "Unable to execute HTTP Request: Broken Pipe"与 Amazon EMR 上的 Hadoop/s3

我开发了一个自定义JAR,我用它来处理ElasticMapReduce中的数据。数据是来自AmazonS3的数十万个文件。JAR没有做任何非常时髦的事情来读取数据-它只是使用CombineFileInputFormat。当我针对少量测试数据运行作业时,一切都完美无缺。然而,当我针对我的完整数据集运行它时,在我的工作中花费了一段(随机)时间,我会遇到某种似乎没有得到正确处理的HTTP或套接字错误。在一项工作中,我在SYSLOG中得到以下信息:2015-11-1621:47:17,504INFOcom.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSyst

amazon-web-services - Spark/Hadoop 不支持 AWS S3 上的 SSE-KMS 加密

我正在尝试使用KMSkey(SSE-KMS)通过服务器端加密在S3上保存一个rdd,但出现以下异常:Exceptioninthread"main"com.amazonaws.services.s3.model.AmazonS3Exception:StatusCode:400,AWSService:AmazonS3,AWSRequestID:695E32175EBA568A,AWSErrorCode:InvalidArgument,AWSErrorMessage:Theencryptionmethodspecifiedisnotsupported,S3ExtendedRequestID:

amazon-web-services - Jupyter notebook、pyspark、hadoop-aws 问题

我正在尝试结合使用Jupyter、PySpark和S3文件(通过s3a协议(protocol))。我需要org.apache.hadoop.fs.s3a.TemporaryAWSCredentialsProvider,因为我们需要使用s3sessiontoken。这是添加到hadoop-aws2.8.3+。我正在尝试以下代码:importosfrompyspark.sqlimportSparkSessionos.environ['PYSPARK_SUBMIT_ARGS']='--packagesorg.apache.hadoop:hadoop-aws:3.0.0pyspark-shel

ubuntu - 如何在我的系统上拥有类似 Amazon EC2 的环境?

我有这个由其他人编写的hadoop项目(链接)。我有消息来源。我想在我的集群(基本上是3台ubuntu机器)上实现它。但是提到的项目在EC2平台(使用Cloudera发行版)上运行。那么,我应该在我的系统上安装什么才能使其具有运行此类项目的软件?我想到了ClouderaManager、OracleJava。 最佳答案 如果该项目使用cloudera发行版(而不是EMR),您可以安装cloudera,它应该没问题。只有一个角落我可以预期有问题-如果s3被用作文件系统。如果该项目确实对s3有效,您有两种方法:a)尝试将s3替换为hdfs