草庐IT

hadoop - 如何知道 Amazon EMR 实例的 MIN_CONTAINER_SIZE?

如何在AmazonEMR集群上获取MIN_CONTAINER_SIZE的默认设置?因为我想通过这个公式来计算EMR上每个节点的内存使用情况RAM-per-container=max(MIN_CONTAINER_SIZE,(TotalAvailableRAM)/containers))谢谢! 最佳答案 在EMR4.x中,默认的最小容器大小为256M。但是上限将受到每个实例类型的节点管理器可用内存的限制(http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr

java - 如何从亚马逊 EMR HDFS 远程读取(或任何其他 hadoop 远程服务器)

我很清楚如何使用hadoopfs-get.....在unix中如何使用java从amazonaws(HDFS)获取文件?这是一个远程服务器。但我需要以某种方式提供一个(ppk文件)。如何在java中完成?添加到此link的代码. 最佳答案 扩展“sras”已经注意到的内容。您必须使用org.apache.hadoop.fs.FileSystemAPI。可以远程调用该API,以便您可以从远程主机连接到HDFS。下面的stackoverflow问题实际上有一个代码片段和一些关于验证您的请求的详细解释。HDFSaccessfromremo

hadoop - EMR 5.16.0 - 启动了太多映射器

尝试将EMREC2实例从5.3C4.4Xlarge(HIVEver2.1.1)升级到EMR5.16.0C5.4XLarge(Hive2.3.3)我的简单查询selectmax(date)fromtablein2.1.1EMR5.3.0仅启动1个映射器和1个缩减器,而当我升级并运行相同的查询时,它启动了1300多个映射器。尝试比较两者的设置属性,发现没有区别。有人可以帮我吗 最佳答案 尝试以下设置。在从hive2.1.1到2.3.3的过程中,他们将其从true翻转为false。sethive.optimize.metadataonly

hadoop - 在 Amazon EMR 上配置 Flink Rest API

我在Amazon的EMR上通过YARN运行一个Flink应用程序,有一个主机和一个从机。我正在尝试通过ssh进入主节点,然后访问FlinkRESTAPI,但无法让EMR静态使用相同的主机/端口。我已经尝试将此配置添加到EMR并从当前主节点的私有(private)DNS中获取主机。它运行的实际端口因每个yarn-session而异。[{"Classification":"flink-conf","Properties":{"rest.port":"44477","jobmanager.web.port":"44477","jobmanager.web.upload.dir":"/home

hadoop - Amazon EMR 未使用所有节点

我正在使用4个核心节点..我正在使用配置单元对表运行查询。各种查询似乎都没有充分利用容量。我的表由8个整数字段和大约1000行组成。表单查询从表中选择avg(col1-col2);从表中选择计数(*);以及我尝试过的所有其他查询正在生产缩减器数量=1,映射器数量=1我试过使用setmapred.reduce.tasks=4;但它不起作用。最奇怪的是,当我使用mapred.job.tracker=local时,这意味着在本地节点本身上有一个map和一个reduce,任务完成速度快了一倍。除了一个之外,所有的reduce/mapslots都一直打开。为什么即使增加容量也不能稍微改善执行时间

hadoop - Elastic MapReduce (EMR) 的扩展?

我正在评估EC2/EMR用于运行约20个节点的Hadoop集群。(customJAR集群)。我已经在单节点3.3GHz2GBRAM本地VMWare实例上运行了简单的WordCount示例,该实例只需不到10秒即可完成。WordCount示例需要3分钟才能在EMR上完成2c1.mediumm实例(不包括3-5分钟的启动时间)。2个m1.small实例花费相同的时间。在EMR上运行作业会有一些开销,也许这个问题规模太小,所以这似乎可以理解。大约在什么规模的问题上,您开始看到云的性能优势?或者大约有多少个节点或计算单元? 最佳答案 如果您

hadoop - 如何在 EMR 上安装 cloudera impala?

无论如何,我是否可以安装唯一没有cloudera管理器和cdh的impala。我将使用hadoop的apache版本? 最佳答案 是的,这是绝对可能的。将存储库添加到您的sources.list文件中,然后更新存储库。deb[arch=amd64]http://archive.cloudera.com/impala/ubuntu/precise/amd64/impalaprecise-impala1contribdeb-srchttp://archive.cloudera.com/impala/ubuntu/precise/amd6

hadoop - Amazon EMR 上的引导操作是否有任何限制?

我正在使用shell脚本对我的数据进行一些操作。这需要1个多小时。但每次超过一小时限制。我的引导操作失败了。有没有人注意到这件事? 最佳答案 根据https://forums.aws.amazon.com/thread.jspa?threadID=64568的说法,引导任务有4500万的限制:“...引导的超时时间为45分钟,所有引导操作放在一起应该在这段时间内完成。” 关于hadoop-AmazonEMR上的引导操作是否有任何限制?,我们在StackOverflow上找到一个类似的问题

hadoop - 在 MapReduce 作业中使用之前,Amazon EMR 框架是否从 S3 复制数据

我注意到当输入位置是S3中的文件时,在调用EMR作业和实际开始数据的mapreduce处理之间需要等待很长时间。我的问题是,EMR是直接在驻留在nativeS3文件系统中的数据上运行,还是将数据复制到已配置的EC2机器(在EMR集群中)的HDFS集群中,在这种情况下,它会占用大量资源复制数据的时间? 最佳答案 S3是一种存储机制,肯定不能处理数据。因此,在MR作业中处理之前,必须将数据复制到EC2节点。 关于hadoop-在MapReduce作业中使用之前,AmazonEMR框架是否从S

amazon-web-services - AWS EMR 在加速端点配置上抛出异常

这是我使用的EMR步骤,s3-dist-cp--targetSize1000--outputCodec=gz--s3Endpoint=bucket.s3-accelerate.amazonaws.com--groupBy'./(\d\d)/\d\d/\d\d/.'--srcs3a://sourcebucket/--dests3a://destbucket/加速端点异常。电子病历版本:Releaselabel:emr-5.13.0Hadoopdistribution:Amazon2.8.3Applications:Hive2.3.2,Pig0.17.0,Hue4.1.0,Presto0.