amazon-elasticache

xml - 上传 4GB 文件到 Amazon-S3

我正在做一些非常简单的数据挖掘(实际上，只是一个单词收集)作为我本科生项目的研究项目。我将使用AmazonElasticMapReduce。我需要上传4GB的.xml文件。最好的方法是什么？上传小的zip文件并以某种方式将它们解压缩到存储桶中？还是拆分文件、上传然后将所有小文件用于流式MapReduce作业？最佳答案您应该将此xml放入序列文件中并对其进行bzip2，或者将其bzip2并在云中解压缩。关于xml-上传4GB文件到Amazon-S3，我们在StackOverflow上

hadoop - Amazon Emr - 当我们拥有核心节点时，任务节点的需求是什么？

我最近在学习AmazonEMR，据我所知，EMR集群让我们选择3个节点。Master，运行NameNode、JobTracker和Resourcemanager等主要Hadoop守护进程。运行Datanode和Tasktracker守护进程的核心。只运行TaskTracker的任务。我想问你们为什么EMR提供任务节点？hadoop建议我们应该在同一个节点上安装Datanode守护进程和Tasktracker守护进程。亚马逊这样做背后的逻辑是什么？您可以将S3中的数据流式传输到核心节点上的HDFS，在HDFS上进行处理，而不是将数据从HDFS共享到任务节点，这在这种情况下会增加IO开销。

求是拥有 strong node section hadoop hadoop2 amazon-emr

amazon-web-services - 使用亚马逊弹性mapreduce服务时如何在hadoop中包含第三方库

我必须使用名为weka的第三方库执行一些数据挖掘任务。但我不确定如何在amazonelasticmapreduce服务中包含所需的jar文件。有没有人有处理过这种情况的经验？最佳答案一个简单的解决方案是使用映射器和缩减器将依赖项放入jar文件中。如果您使用Maven构建我建议使用MavenAssemblyPlugin用于打包具有所有依赖项的单个jar的插件。关于amazon-web-services-使用亚马逊弹性mapreduce服务时如何在hadoop中包含第三方库，我们在St

中包含第 section stackoverflow amazon-web-services hadoop mapreduce amazon-emr

hadoop - 为 Amazon EMR 应用程序设置 Reducer 的数量

我正在尝试在AmazonEMR下运行wordcount示例。-1-首先，我使用以下命令创建集群:./elastic-mapreduce--create--name"MyTest"--alive这将创建一个具有单个实例的集群并返回一个jobID，假设为j-12NWUOKABCDEF-2-其次，我使用以下命令启Action业:./elastic-mapreduce--jobflowj-12NWUOKABCDEF--jars3n://mybucket/jar-files/wordcount.jar--main-classabc.WordCount--args3n://mybucket/输入数

Reducer hadoop section mybucket elastic-mapreduce amazon-emr reducers mappers

amazon-web-services - 从 Spark 集群上的 S3 读取 Spark 作业会出现 IllegalAccessError : tried to access method MutableCounterLong

这个问题在这里已经有了答案:java.lang.NoClassDefFoundError:org/apache/hadoop/fs/StorageStatistics(2个答案)关闭4年前。我在DC/OS上有一个Spark集群，我正在运行一个从S3读取的Spark作业。版本如下:星火2.3.1Hadoop2.7AWS连接依赖:"org.apache.hadoop"%"hadoop-aws"%"3.0.0-alpha2"我通过执行以下操作读入数据:`valhadoopConf=sparkSession.sparkContext.hadoopConfigurationhadoopConf.

Spark amazon-web-services apache hadoop org apache-spark amazon-s3

hadoop - Map Reduce 的 Map 函数可以调用 Amazon Map Reduce 中的(外部)Web 服务吗？

我必须用Java编写一个MapReduce作业，在其中我获得了位置(城市、州、国家/地区)，我需要将它们转换为纬度/经度坐标，其详细信息由外部Web服务提供:GoogleGeocodingAPI-我的问题是是否允许从MapReduce作业的Map函数调用HTTP请求，即:公共(public)类GeoLocator{privatestaticStringgenderCheck="female";publicstaticclassMapextendsMapReduceBaseimplementsMapper{//CALLEXTERNALWEBSERVICEHERE}..}

Reduce Map section hadoop amazon-web-services

hadoop - 如何在 Amazon EMR 上配置 Hadoop 参数？

我在AmazonEMR上使用一个主服务器和两个从服务器运行MR作业，但收到很多错误消息，例如runningbeyondphysicalmemorylimits。当前使用情况:已使用3.0GB的3GB物理内存；使用了3.7GB的15GB虚拟内存。在map100%reduce35%后杀死容器我通过在Hadoop2.6.0MR配置中添加以下行来修改我的代码，但我仍然收到相同的错误消息。Configurationconf=newConfiguration();Jobjob=Job.getInstance(conf,"jobtest2");//conf.set("mapreduce.input.

何在 hadoop code mapreduce section amazon-web-services hadoop2 emr amazon-emr

amazon-web-services - 我们可以使用 sqoop 将数据从 Hadoop (Hive) 导出到 Amazon Redshift

我有一个本地Hadoop集群，想将数据加载到AmazonRedshift。考虑到成本，Informatica/Talend不是一个选择，那么我们可以利用Sqoop直接将表从Hive导出到Redshift吗？Sqoop是否连接到Redshift？最佳答案将数据加载到AmazonRedshift中的最有效的方法是将数据放入AmazonS3，然后在Redshift中发出COPY命令。这会在所有Redshift节点上执行并行数据加载。虽然Sqoop可以使用传统的INSERTSQL命令将数据插入Redshift，但这并不是将数据插入Red

amazon-web-services Redshift strong section hadoop etl sqoop

java - 在使用存储在 amazon s3 上的数据运行 Map reduce WordCount 作业时需要帮助

我正在尝试对存储在Amazons3存储桶中的文本文件运行MapreduceWordCount作业。我已经为mapreduce框架设置了与Amazon通信所需的所有必需的身份验证，但我继续运行此错误。知道为什么会这样吗？13/01/2013:22:15ERRORsecurity.UserGroupInformation:PriviledgedActionExceptionas:rootcause:org.apache.hadoop.mapred.InvalidInputException:Inputpathdoesnotexist:s3://name-bucket/test.txtExc

WordCount amazon JobClient java apache hadoop amazon-s3 mapreduce

hadoop - IllegalArgumentException 必须指定 bucketName 参数。 com.amazonaws.services.s3.AmazonS3Client.rejectNull

使用(hfs-textline)在AWS-EMR集群上运行Clojurejar并获取:IllegalArgumentExceptionThebucketNameparametermustbespecified.com.amazonaws.services.s3.AmazonS3Client.rejectNull`. 最佳答案在我的例子中，它确实是关于bucketname的。我输错了s3:///mkay4242(3个斜线)而不是s3://mkay4242。关于hadoop-Illega

IllegalArgumentException AmazonS3Client section code hadoop clojure emr cascalog