amazon-redshift

hadoop - 无法让日志聚合在 Amazon-Hadoop 集群上工作

我尽我所能使日志聚合，但我做不到。所以我需要你的帮助来解决这个问题:我将其添加到yarn-site.xml并重新启动但没有任何乐趣。yarn.log-aggregation-enabletrueWheretoaggregatelogsto.yarn.nodemanager.remote-app-log-dir/tmp/logsyarn.log-aggregation.retain-seconds259200yarn.log-aggregation.retain-check-interval-seconds3600当我尝试通过以下方式进行聚合时:yarnlogs-applicationI

上工 Amazon-Hadoop lt gt property hadoop amazon-ec2 hadoop-yarn

amazon-web-services - 如何使用 "s3a://"方案让 Hive 2.2.1 成功与 AWS S3 集成

我遵循了各种已发布的文档，了解如何使用s3a://方案将ApacheHive2.1.1与AWSS3集成，配置fs.s3a.access.key和fs.s3a.secret.key用于hadoop/etc/hadoop/core-site.xml和hive/conf/hive-site.xml.我现在可以让hdfsdfs-lss3a://[bucket-name]/正常工作(它返回那个桶的s3ls)。所以我知道我的信用、存储桶访问和整体Hadoop设置是有效的。hdfsdfs-lss3a://[bucket-name]/drwxrwxrwx-hdfshdfs02017-06-2722:4

amazon-web-services amp code bucket-name s3a hadoop amazon-s3 hive

amazon-web-services - Hadoop 配置单元无法在 AWS EMR 上扩展

我正在hadoophive上运行一个实验。在这个实验中，我在2个不同的硬件设置上运行相同的配置单元作业。它托管在AWSEMR中。这是我运行的hive.sql脚本:DROPDATABASEIFEXISTSlabtest;CREATEDATABASElabtest;CREATETABLEIFNOTEXISTSlaborder(InserttsTIMESTAMP,ordernrSTRING,PatientnrSTRING,visitnrSTRING)ROWFORMATSERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'WITHSERDEPROPE

配置单 amazon-web-services 34 STRING labspecimen hadoop hive amazon emr

hadoop - 如何知道 Amazon EMR 实例的 MIN_CONTAINER_SIZE？

如何在AmazonEMR集群上获取MIN_CONTAINER_SIZE的默认设置？因为我想通过这个公式来计算EMR上每个节点的内存使用情况RAM-per-container=max(MIN_CONTAINER_SIZE,(TotalAvailableRAM)/containers))谢谢! 最佳答案在EMR4.x中，默认的最小容器大小为256M。但是上限将受到每个实例类型的节点管理器可用内存的限制(http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr

MIN_CONTAINER_SIZE CONTAINER section hadoop amazon-web-services amazon-ec2 hadoop2 emr

hadoop - 我应该经常在 redshift 上使用 unload 命令吗？

我们目前正在为我们的非技术用户使用ETL工具(基于Hadoop)，以便他们使用原始数据创建一个csv文件。开发人员根据需要为他们创建流程，然后他们按需运行。由于我们使用数据湖文件(S3)来创建输出，因此我们需要将所有事实连接在一起并运行Hadoop需要一段时间才能完成的一些繁重的工作。我们希望这些进程在更短的时间内运行。我的想法是使用UNLOAD命令实现此任务的Redshift。由于redshift中的数据已经根据业务需求构建，因此通常只需一个非常简单的查询即可获得他们想要的结果，运行时间为2-5分钟。但是，我不确定是否让我们的用户可以选择按需运行卸载命令(不是他们自己，而是通过构建的

redshift hadoop section 的 amazon-s3 data-warehouse amazon-redshift

hadoop - 如何将 Amazon Glacier/S3 与 hadoop map reduce/spark 结合使用？

我需要使用Hadoop/EMR处理存储在AmazonS3和AmazonGlacier中的数据，并将输出数据保存在RDBMS中，例如。垂直我完全是大数据的菜鸟。我只看过一些关于mapreduce和sparx的在线类(class)和ppts。并创建了一些虚拟mapreduce代码用于学习目的。到目前为止，我只有一些命令可以让我将数据从S3导入AmazonEMR中的HDFC，并在处理后将它们存储在HDFS文件中。所以这是我的问题:在执行mapreduce之前是否真的必须先将数据从S3同步到HDFC，或者是否有直接使用S3的方法。`如何让hadoop访问AmazonGlacier数据`最后是如

hadoop Glacier section Amazon apache-spark amazon-s3 emr amazon-glacier

amazon-web-services - spark aws S3a ARN(亚马逊资源名称)IAM 角色

我正在使用spark2.3.0和Hadoop2.7(但如果需要我可以升级)我想访问具有ARN(亚马逊资源名称)IAM角色的S3文件https://docs.aws.amazon.com/cli/latest/userguide/cli-multiple-profiles.html我已经看过这个Howtoaccesss3a://filesfromApacheSpark?但是没有关于IAM访问的问题publicclasstest{publicstaticvoidmain(String[]args){SparkSessionsc=newSparkSession.Builder().appNa

amazon-web-services services hadoop noreferrer noopener apache-spark amazon-s3 amazon-iam

hadoop - 在 Amazon EMR 上配置 Flink Rest API

我在Amazon的EMR上通过YARN运行一个Flink应用程序，有一个主机和一个从机。我正在尝试通过ssh进入主节点，然后访问FlinkRESTAPI，但无法让EMR静态使用相同的主机/端口。我已经尝试将此配置添加到EMR并从当前主节点的私有(private)DNS中获取主机。它运行的实际端口因每个yarn-session而异。[{"Classification":"flink-conf","Properties":{"rest.port":"44477","jobmanager.web.port":"44477","jobmanager.web.upload.dir":"/home

hadoop Amazon configuration code section hadoop-yarn apache-flink amazon-emr

hadoop - Amazon EMR 未使用所有节点

我正在使用4个核心节点..我正在使用配置单元对表运行查询。各种查询似乎都没有充分利用容量。我的表由8个整数字段和大约1000行组成。表单查询从表中选择avg(col1-col2)；从表中选择计数(*)；以及我尝试过的所有其他查询正在生产缩减器数量=1，映射器数量=1我试过使用setmapred.reduce.tasks=4;但它不起作用。最奇怪的是，当我使用mapred.job.tracker=local时，这意味着在本地节点本身上有一个map和一个reduce，任务完成速度快了一倍。除了一个之外，所有的reduce/mapslots都一直打开。为什么即使增加容量也不能稍微改善执行时间

有节 hadoop 射器 section stackoverflow hive emr

hadoop - Amazon EMR 上的引导操作是否有任何限制？

我正在使用shell脚本对我的数据进行一些操作。这需要1个多小时。但每次超过一小时限制。我的引导操作失败了。有没有人注意到这件事？最佳答案根据https://forums.aws.amazon.com/thread.jspa?threadID=64568的说法，引导任务有4500万的限制:“...引导的超时时间为45分钟，所有引导操作放在一起应该在这段时间内完成。” 关于hadoop-AmazonEMR上的引导操作是否有任何限制？，我们在StackOverflow上找到一个类似的问题

hadoop Amazon section https stackoverflow hive amazon-emr

37 38 394041 42 43