amazon-emr

amazon-web-services - spark aws S3a ARN(亚马逊资源名称)IAM 角色

我正在使用spark2.3.0和Hadoop2.7(但如果需要我可以升级)我想访问具有ARN(亚马逊资源名称)IAM角色的S3文件https://docs.aws.amazon.com/cli/latest/userguide/cli-multiple-profiles.html我已经看过这个Howtoaccesss3a://filesfromApacheSpark?但是没有关于IAM访问的问题publicclasstest{publicstaticvoidmain(String[]args){SparkSessionsc=newSparkSession.Builder().appNa

hadoop - EMR 5.16.0 - 启动了太多映射器

尝试将EMREC2实例从5.3C4.4Xlarge(HIVEver2.1.1)升级到EMR5.16.0C5.4XLarge(Hive2.3.3)我的简单查询selectmax(date)fromtablein2.1.1EMR5.3.0仅启动1个映射器和1个缩减器，而当我升级并运行相同的查询时，它启动了1300多个映射器。尝试比较两者的设置属性，发现没有区别。有人可以帮我吗最佳答案尝试以下设置。在从hive2.1.1到2.3.3的过程中，他们将其从true翻转为false。sethive.optimize.metadataonly

射器 hadoop section stackoverflow amazon-ec2 hive amazon-emr

hadoop - 在 Amazon EMR 上配置 Flink Rest API

我在Amazon的EMR上通过YARN运行一个Flink应用程序，有一个主机和一个从机。我正在尝试通过ssh进入主节点，然后访问FlinkRESTAPI，但无法让EMR静态使用相同的主机/端口。我已经尝试将此配置添加到EMR并从当前主节点的私有(private)DNS中获取主机。它运行的实际端口因每个yarn-session而异。[{"Classification":"flink-conf","Properties":{"rest.port":"44477","jobmanager.web.port":"44477","jobmanager.web.upload.dir":"/home

hadoop Amazon configuration code section hadoop-yarn apache-flink amazon-emr

java - 用Sqoop导出Hive表，有些行没有分隔

我有一个使用Hive生成的表(在AmazonElasticMapReduceJobFlow上)。我可以看到数据位于hdfs:///mnt/hive_081/warehouse/[tablename]。我把Sqoop打包成一个jar(没有做任何改动)，上传到master节点进行测试。我这样运行我的sqoopjar:/usr/lib/jvm/java-6-sun/bin/java-cp/home/hadoop/conf:/usr/lib/jvm/java-6-sun/lib/tools.jar:/home/hadoop:/home/hadoop/hadoop-tools-1.0.3.j

Sqoop java hadoop 231 home hive amazon-emr

hadoop - 由于在映射端聚合中使用 HashMap 而导致内存不足

我的Hive查询抛出此异常。HadoopjobinformationforStage-1:numberofmappers:6;numberofreducers:12013-05-2212:08:32,634Stage-1map=0%,reduce=0%2013-05-2212:09:19,984Stage-1map=100%,reduce=100%EndedJob=job_201305221200_0001witherrorsErrorduringjob,obtainingdebugginginformation...ExaminingtaskID:task_201305221200_

HashMap hadoop 201305221200 section 0001 hive amazon-emr hiveql

hadoop - Amazon EMR 未使用所有节点

我正在使用4个核心节点..我正在使用配置单元对表运行查询。各种查询似乎都没有充分利用容量。我的表由8个整数字段和大约1000行组成。表单查询从表中选择avg(col1-col2)；从表中选择计数(*)；以及我尝试过的所有其他查询正在生产缩减器数量=1，映射器数量=1我试过使用setmapred.reduce.tasks=4;但它不起作用。最奇怪的是，当我使用mapred.job.tracker=local时，这意味着在本地节点本身上有一个map和一个reduce，任务完成速度快了一倍。除了一个之外，所有的reduce/mapslots都一直打开。为什么即使增加容量也不能稍微改善执行时间

有节 hadoop 射器 section stackoverflow hive emr

hadoop - Elastic MapReduce (EMR) 的扩展？

我正在评估EC2/EMR用于运行约20个节点的Hadoop集群。(customJAR集群)。我已经在单节点3.3GHz2GBRAM本地VMWare实例上运行了简单的WordCount示例，该实例只需不到10秒即可完成。WordCount示例需要3分钟才能在EMR上完成2c1.mediumm实例(不包括3-5分钟的启动时间)。2个m1.small实例花费相同的时间。在EMR上运行作业会有一些开销，也许这个问题规模太小，所以这似乎可以理解。大约在什么规模的问题上，您开始看到云的性能优势？或者大约有多少个节点或计算单元？最佳答案如果您

MapReduce Elastic section EMR noreferrer hadoop amazon-ec2 cloud

hadoop - 如何在 EMR 上安装 cloudera impala？

无论如何，我是否可以安装唯一没有cloudera管理器和cdh的impala。我将使用hadoop的apache版本？最佳答案是的，这是绝对可能的。将存储库添加到您的sources.list文件中，然后更新存储库。deb[arch=amd64]http://archive.cloudera.com/impala/ubuntu/precise/amd64/impalaprecise-impala1contribdeb-srchttp://archive.cloudera.com/impala/ubuntu/precise/amd6

何在 cloudera impala section hadoop hive amazon-emr

hadoop - Amazon EMR 上的引导操作是否有任何限制？

我正在使用shell脚本对我的数据进行一些操作。这需要1个多小时。但每次超过一小时限制。我的引导操作失败了。有没有人注意到这件事？最佳答案根据https://forums.aws.amazon.com/thread.jspa?threadID=64568的说法，引导任务有4500万的限制:“...引导的超时时间为45分钟，所有引导操作放在一起应该在这段时间内完成。” 关于hadoop-AmazonEMR上的引导操作是否有任何限制？，我们在StackOverflow上找到一个类似的问题

hadoop Amazon section https stackoverflow hive amazon-emr

hadoop - 在配置单元中创建表时 EXTERNAL 关键字的意义

如果您使用指向某个S3存储桶位置的EXTERNAL关键字创建外部表，我注意到一件事。数据已加载，您可以查询它。但是，即使我不使用EXTERNAL关键字并使用脚本的其余部分来创建表。即使这样它也能完美运行。为什么会这样？另外，它是外部表还是内部表？如果我删除此表，元数据或数据也会被删除吗？EXTERNAL一词有什么意义吗？如果我创建一个带有EXTERNAL关键字和位置的表，以及另一个没有EXTERNAL关键字但有位置的表。当我得到相同的行为时，有什么区别？createtabledummy(idint,valuestring)ROWFORMATDELIMITEDFIELDSTERMINAT

中创配置单 strong section logs hadoop amazon-s3 hive amazon-emr

40 41 424344 45 46