emrs

hadoop - 如何知道 Amazon EMR 实例的 MIN_CONTAINER_SIZE？

如何在AmazonEMR集群上获取MIN_CONTAINER_SIZE的默认设置？因为我想通过这个公式来计算EMR上每个节点的内存使用情况RAM-per-container=max(MIN_CONTAINER_SIZE,(TotalAvailableRAM)/containers))谢谢! 最佳答案在EMR4.x中，默认的最小容器大小为256M。但是上限将受到每个实例类型的节点管理器可用内存的限制(http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr

java - 如何从亚马逊 EMR HDFS 远程读取(或任何其他 hadoop 远程服务器)

我很清楚如何使用hadoopfs-get.....在unix中如何使用java从amazonaws(HDFS)获取文件？这是一个远程服务器。但我需要以某种方式提供一个(ppk文件)。如何在java中完成？添加到此link的代码. 最佳答案扩展“sras”已经注意到的内容。您必须使用org.apache.hadoop.fs.FileSystemAPI。可以远程调用该API，以便您可以从远程主机连接到HDFS。下面的stackoverflow问题实际上有一个代码片段和一些关于验证您的请求的详细解释。HDFSaccessfromremo

hadoop java section stackoverflow amazon-web-services hdfs

hadoop - EMR 5.16.0 - 启动了太多映射器

尝试将EMREC2实例从5.3C4.4Xlarge(HIVEver2.1.1)升级到EMR5.16.0C5.4XLarge(Hive2.3.3)我的简单查询selectmax(date)fromtablein2.1.1EMR5.3.0仅启动1个映射器和1个缩减器，而当我升级并运行相同的查询时，它启动了1300多个映射器。尝试比较两者的设置属性，发现没有区别。有人可以帮我吗最佳答案尝试以下设置。在从hive2.1.1到2.3.3的过程中，他们将其从true翻转为false。sethive.optimize.metadataonly

射器 hadoop section stackoverflow amazon-ec2 hive amazon-emr

hadoop - 在 Amazon EMR 上配置 Flink Rest API

我在Amazon的EMR上通过YARN运行一个Flink应用程序，有一个主机和一个从机。我正在尝试通过ssh进入主节点，然后访问FlinkRESTAPI，但无法让EMR静态使用相同的主机/端口。我已经尝试将此配置添加到EMR并从当前主节点的私有(private)DNS中获取主机。它运行的实际端口因每个yarn-session而异。[{"Classification":"flink-conf","Properties":{"rest.port":"44477","jobmanager.web.port":"44477","jobmanager.web.upload.dir":"/home

hadoop Amazon configuration code section hadoop-yarn apache-flink amazon-emr

hadoop - Amazon EMR 未使用所有节点

我正在使用4个核心节点..我正在使用配置单元对表运行查询。各种查询似乎都没有充分利用容量。我的表由8个整数字段和大约1000行组成。表单查询从表中选择avg(col1-col2)；从表中选择计数(*)；以及我尝试过的所有其他查询正在生产缩减器数量=1，映射器数量=1我试过使用setmapred.reduce.tasks=4;但它不起作用。最奇怪的是，当我使用mapred.job.tracker=local时，这意味着在本地节点本身上有一个map和一个reduce，任务完成速度快了一倍。除了一个之外，所有的reduce/mapslots都一直打开。为什么即使增加容量也不能稍微改善执行时间

有节 hadoop 射器 section stackoverflow hive emr

hadoop - Elastic MapReduce (EMR) 的扩展？

我正在评估EC2/EMR用于运行约20个节点的Hadoop集群。(customJAR集群)。我已经在单节点3.3GHz2GBRAM本地VMWare实例上运行了简单的WordCount示例，该实例只需不到10秒即可完成。WordCount示例需要3分钟才能在EMR上完成2c1.mediumm实例(不包括3-5分钟的启动时间)。2个m1.small实例花费相同的时间。在EMR上运行作业会有一些开销，也许这个问题规模太小，所以这似乎可以理解。大约在什么规模的问题上，您开始看到云的性能优势？或者大约有多少个节点或计算单元？最佳答案如果您

MapReduce Elastic section EMR noreferrer hadoop amazon-ec2 cloud

hadoop - 如何在 EMR 上安装 cloudera impala？

无论如何，我是否可以安装唯一没有cloudera管理器和cdh的impala。我将使用hadoop的apache版本？最佳答案是的，这是绝对可能的。将存储库添加到您的sources.list文件中，然后更新存储库。deb[arch=amd64]http://archive.cloudera.com/impala/ubuntu/precise/amd64/impalaprecise-impala1contribdeb-srchttp://archive.cloudera.com/impala/ubuntu/precise/amd6

何在 cloudera impala section hadoop hive amazon-emr

hadoop - Amazon EMR 上的引导操作是否有任何限制？

我正在使用shell脚本对我的数据进行一些操作。这需要1个多小时。但每次超过一小时限制。我的引导操作失败了。有没有人注意到这件事？最佳答案根据https://forums.aws.amazon.com/thread.jspa?threadID=64568的说法，引导任务有4500万的限制:“...引导的超时时间为45分钟，所有引导操作放在一起应该在这段时间内完成。” 关于hadoop-AmazonEMR上的引导操作是否有任何限制？，我们在StackOverflow上找到一个类似的问题

hadoop Amazon section https stackoverflow hive amazon-emr

hadoop - 在 MapReduce 作业中使用之前，Amazon EMR 框架是否从 S3 复制数据

我注意到当输入位置是S3中的文件时，在调用EMR作业和实际开始数据的mapreduce处理之间需要等待很长时间。我的问题是，EMR是直接在驻留在nativeS3文件系统中的数据上运行，还是将数据复制到已配置的EC2机器(在EMR集群中)的HDFS集群中，在这种情况下，它会占用大量资源复制数据的时间？最佳答案 S3是一种存储机制，肯定不能处理数据。因此，在MR作业中处理之前，必须将数据复制到EC2节点。关于hadoop-在MapReduce作业中使用之前，AmazonEMR框架是否从S

MapReduce hadoop section 和实长时 amazon-s3 hdfs amazon-emr

amazon-web-services - AWS EMR 在加速端点配置上抛出异常

这是我使用的EMR步骤，s3-dist-cp--targetSize1000--outputCodec=gz--s3Endpoint=bucket.s3-accelerate.amazonaws.com--groupBy'./(\d\d)/\d\d/\d\d/.'--srcs3a://sourcebucket/--dests3a://destbucket/加速端点异常。电子病历版本:Releaselabel:emr-5.13.0Hadoopdistribution:Amazon2.8.3Applications:Hive2.3.2,Pig0.17.0,Hue4.1.0,Presto0.

amazon-web-services services hadoop java amazon amazon-s3 amazon-emr

1 2 345 6 7