草庐IT

amazon-emr

全部标签

hadoop - EMR hadoop (MRv2) 集群的最大容量为 80%。如何获得剩余的20%?

我在AWS上使用ElasticMapReduce(Hadoop2.0和YARN)。配置如下:10xg2.2xlargecoreinstanceswith15GBofRAMand8CPUcoresyarn.nodemanager.vmem-check-enabled=falseyarn.scheduler.minimum-allocation-mb=2048yarn.nodemanager.resource.memory-mb=12288mapreduce.map.memory.mb=3072运行作业时,调度程序显示仅分配了81.7%的集群:UsedCapacity:81.7%Absol

hadoop - 使用 distcp 安全地将数据从 HDFS 传输到 amazon S3

我们想将ClouderaHadoop集群中的HDFS数据备份到AmazonS3。看起来我们可以为此使用distcp但不清楚的是数据是否通过加密传输复制到S3。是否需要配置一些东西才能启用此功能? 最佳答案 我认为S3客户端加密在Hadoop中还不可用。好像S3serversideencryption(在S3端加密静态数据)可从Hadoop2.5.0进行配置。要启用它,请在core-site.xml中添加以下属性:fs.s3n.server-side-encryption-algorithmAES256Specifyaserver-s

hadoop - 如何在EMR上设置并行 reducer 的数量?

我正在使用mrjob在EMR上运行作业;我使用的是AMI2.4.7版和Hadoop1.0.3版。我想为一个作业指定reducer的数量,因为我想为下一个作业提供更高的并行度。阅读此站点上其他问题的答案后,我认为我应该设置这些参数,所以我这样做了:mapred.reduce.tasks=576mapred.tasktracker.reduce.tasks.maximum=24但是,似乎没有选择第二个选项:EMR和Hadoop接口(interface)都报告有576个reduce任务要运行,但集群的容量仍保持在72(r3.8xlarge实例)。我什至看到选项设置在var/lib/hadoo

hadoop - 在 EMR 上运行 Pig 脚本

所以我使用以下文件作为输入:https://svn.apache.org/repos/asf/pig/trunk/tutorial/data/excite-small.log我现在的代码是--FileName:excite-small.loglog=LOAD'excite-small.log'AS(user,timestamp,query);grpd=GROUPlogBYuser;cntd=FOREACHgrpdGENERATEgroup,COUNT(log);STOREcntdINTO'output'我使用http://docs.aws.amazon.com/ElasticMapRe

hadoop - 如何使用 Apache Drill 从 AmazonS3 查询数据?

在使用Spark将AsTextFile保存到S3之后,然后像Hadoop一样格式化。桶中的文件格式是这样的。格式为YEAR/MONTH/DATE/TIMESTAMP数据在part-0000文件中,是json格式。我配置drill并指向我的存储桶名称{"type":"file","enabled":true,"connection":"s3://com.giaosudau.win-bid","workspaces":{"root":{"location":"/","writable":false,"defaultInputFormat":"json"},"tmp":{"location"

hadoop - 如何强制 Hadoop 解压缩输入而不考虑其扩展名?

我正在运行map-reduce,我的输入是gzip压缩的,但没有.gz(文件名)扩展名。通常,当它们具有.gz扩展名时,Hadoop会在将它们传递给映射器之前负责即时解压缩它们。但是,如果没有扩展名,它不会这样做。我无法重命名我的文件,所以我需要某种“强制”Hadoop解压缩它们的方法,即使它们没有.gz扩展名。我尝试将以下标志传递给Hadoop:step_args=["-jobconf","stream.recordreader.compression=gzip",“-jobconf”,“mapred.output.compress=true”,“-jobconf”,“mapred.

hadoop - 如何增加 Tez 的容器物理内存?

我一直在使用hive1.0和tez0.8的awsemr4.8集群上运行一些hive脚本。我的配置是这样的:SEThive.exec.compress.output=true;SETmapred.output.compression.type=BLOCK;SEThive.exec.dynamic.partition=true;SEThive.exec.dynamic.partition.mode=nonstrict;sethive.execution.engine=tez;sethive.merge.mapfiles=false;SEThive.default.fileformat=Or

python - Spark/Hadoop 在 AWS EMR 上找不到文件

我正在尝试使用pythonspark库读取AmazonEMR上的文本文件。该文件在主目录(/home/hadoop/wet0)中,但spark似乎无法找到它。有问题的行:lines=spark.read.text(sys.argv[1]).rdd.map(lambdar:r[0])错误:pyspark.sql.utils.AnalysisException:u'Pathdoesnotexist:hdfs://ip-172-31-19-121.us-west-2.compute.internal:8020/user/hadoop/wet0;'文件是否必须在特定目录中?我在AWS网站上找不

Amazon CodeWhisperer:AI 编程助手

文章作者:prigioni1.什么是AmazonCodeWhisperer?AmazonCodeWhisperer能够理解以自然语言(英语)编写的注释,并能实时生成多条代码建议,以此提高开发人员生产力。该服务可以直接在集成开发环境(IDE)的代码编辑器中给出关于整个功能和逻辑代码块(通常包含多达10-15行代码)的建议。生成的代码与实际要编写的代码类似,并符合开发者的个人风格和命名约定。链接地址:[https://dev.amazoncloud.cn/experience/codewhisperer-1?sc_medi...]亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文

re:Invent 2023 | 实现 Amazon CodeWhisperer 开发人员效率收益提升

关键字:[AmazonWebServicesre:Invent2023,CodeWhisperer,CodeGeneration,CodeRecommendations,DeveloperProductivity,CustomModels,SecurityScanning]本文字数:1200,阅读完需:6分钟视频如视频不能正常播放,请前往bilibili观看本视频。>>https://www.bilibili.com/video/BV1u94y1w7ii导读开发人员常常需要花费大量时间编写无差异的代码。而AmazonCodeWhisperer可通过实时生成代码建议来减轻这一负担,进而从根本上提