草庐IT

amazon-emr

全部标签

amazon-web-services - spark aws S3a ARN(亚马逊资源名称)IAM 角色

我正在使用spark2.3.0和Hadoop2.7(但如果需要我可以升级)我想访问具有ARN(亚马逊资源名称)IAM角色的S3文件https://docs.aws.amazon.com/cli/latest/userguide/cli-multiple-profiles.html我已经看过这个Howtoaccesss3a://filesfromApacheSpark?但是没有关于IAM访问的问题publicclasstest{publicstaticvoidmain(String[]args){SparkSessionsc=newSparkSession.Builder().appNa

hadoop - EMR 5.16.0 - 启动了太多映射器

尝试将EMREC2实例从5.3C4.4Xlarge(HIVEver2.1.1)升级到EMR5.16.0C5.4XLarge(Hive2.3.3)我的简单查询selectmax(date)fromtablein2.1.1EMR5.3.0仅启动1个映射器和1个缩减器,而当我升级并运行相同的查询时,它启动了1300多个映射器。尝试比较两者的设置属性,发现没有区别。有人可以帮我吗 最佳答案 尝试以下设置。在从hive2.1.1到2.3.3的过程中,他们将其从true翻转为false。sethive.optimize.metadataonly

hadoop - 在 Amazon EMR 上配置 Flink Rest API

我在Amazon的EMR上通过YARN运行一个Flink应用程序,有一个主机和一个从机。我正在尝试通过ssh进入主节点,然后访问FlinkRESTAPI,但无法让EMR静态使用相同的主机/端口。我已经尝试将此配置添加到EMR并从当前主节点的私有(private)DNS中获取主机。它运行的实际端口因每个yarn-session而异。[{"Classification":"flink-conf","Properties":{"rest.port":"44477","jobmanager.web.port":"44477","jobmanager.web.upload.dir":"/home

java - 用Sqoop导出Hive表,有些行没有分隔

我有一个使用Hive生成​​的表(在AmazonElasticMapReduceJobFlow上)。我可以看到数据位于hdfs:///mnt/hive_081/warehouse/[tablename]。我把Sqoop打包成一个jar(没有做任何改动),上传到master节点进行测试。我这样运行我的sqoopjar:/usr/lib/jvm/java-6-sun/bin/java-cp/home/hadoop/conf:/usr/lib/jvm/java-6-sun/lib/tools.jar:/home/hadoop:/home/hadoop/hadoop-tools-1.0.3.j

hadoop - 由于在映射端聚合中使用 HashMap 而导致内存不足

我的Hive查询抛出此异常。HadoopjobinformationforStage-1:numberofmappers:6;numberofreducers:12013-05-2212:08:32,634Stage-1map=0%,reduce=0%2013-05-2212:09:19,984Stage-1map=100%,reduce=100%EndedJob=job_201305221200_0001witherrorsErrorduringjob,obtainingdebugginginformation...ExaminingtaskID:task_201305221200_

hadoop - Amazon EMR 未使用所有节点

我正在使用4个核心节点..我正在使用配置单元对表运行查询。各种查询似乎都没有充分利用容量。我的表由8个整数字段和大约1000行组成。表单查询从表中选择avg(col1-col2);从表中选择计数(*);以及我尝试过的所有其他查询正在生产缩减器数量=1,映射器数量=1我试过使用setmapred.reduce.tasks=4;但它不起作用。最奇怪的是,当我使用mapred.job.tracker=local时,这意味着在本地节点本身上有一个map和一个reduce,任务完成速度快了一倍。除了一个之外,所有的reduce/mapslots都一直打开。为什么即使增加容量也不能稍微改善执行时间

hadoop - Elastic MapReduce (EMR) 的扩展?

我正在评估EC2/EMR用于运行约20个节点的Hadoop集群。(customJAR集群)。我已经在单节点3.3GHz2GBRAM本地VMWare实例上运行了简单的WordCount示例,该实例只需不到10秒即可完成。WordCount示例需要3分钟才能在EMR上完成2c1.mediumm实例(不包括3-5分钟的启动时间)。2个m1.small实例花费相同的时间。在EMR上运行作业会有一些开销,也许这个问题规模太小,所以这似乎可以理解。大约在什么规模的问题上,您开始看到云的性能优势?或者大约有多少个节点或计算单元? 最佳答案 如果您

hadoop - 如何在 EMR 上安装 cloudera impala?

无论如何,我是否可以安装唯一没有cloudera管理器和cdh的impala。我将使用hadoop的apache版本? 最佳答案 是的,这是绝对可能的。将存储库添加到您的sources.list文件中,然后更新存储库。deb[arch=amd64]http://archive.cloudera.com/impala/ubuntu/precise/amd64/impalaprecise-impala1contribdeb-srchttp://archive.cloudera.com/impala/ubuntu/precise/amd6

hadoop - Amazon EMR 上的引导操作是否有任何限制?

我正在使用shell脚本对我的数据进行一些操作。这需要1个多小时。但每次超过一小时限制。我的引导操作失败了。有没有人注意到这件事? 最佳答案 根据https://forums.aws.amazon.com/thread.jspa?threadID=64568的说法,引导任务有4500万的限制:“...引导的超时时间为45分钟,所有引导操作放在一起应该在这段时间内完成。” 关于hadoop-AmazonEMR上的引导操作是否有任何限制?,我们在StackOverflow上找到一个类似的问题

hadoop - 在配置单元中创建表时 EXTERNAL 关键字的意义

如果您使用指向某个S3存储桶位置的EXTERNAL关键字创建外部表,我注意到一件事。数据已加载,您可以查询它。但是,即使我不使用EXTERNAL关键字并使用脚本的其余部分来创建表。即使这样它也能完美运行。为什么会这样?另外,它是外部表还是内部表?如果我删除此表,元数据或数据也会被删除吗?EXTERNAL一词有什么意义吗?如果我创建一个带有EXTERNAL关键字和位置的表,以及另一个没有EXTERNAL关键字但有位置的表。当我得到相同的行为时,有什么区别?createtabledummy(idint,valuestring)ROWFORMATDELIMITEDFIELDSTERMINAT