草庐IT

aws_elasticache_replication_group

全部标签

hadoop - AWS 访问 key ID 在 hadoop fs -cp 命令上失败

我试图运行hadoopfs-cp命令但收到以下错误消息:-cp:AWS访问keyID和secret访问key必须指定为s3URL的用户名或密码(分别),或者通过设置fs.s3.awsAccessKeyId或fs.s3.awsSecretAccessKey属性(分别)我是hadoop和s3的新手,所以任何人都可以就我应该做什么提供建议吗?谢谢! 最佳答案 请refer.去cd${HADOOP_HOME}/conf/hadoop-site.xml并添加/更新fs.s3.awsAccessKeyIdYourAWSACCESSKEYfs.s

hadoop - Hive 不会写入 aws s3

我在hive中有一个外部表存储在我的hadoop集群上,我想将其内容移动到存储在Amazons3上的外部表中。所以我创建了一个s3支持的表,如下所示:CREATEEXTERNALTABLEIFNOTEXISTSexport.export_tableliketable_to_be_exportedROWFORMATSERDE...withSERDEPROPERTIES('fieldDelimiter'='|')STOREDASTEXTFILELOCATION's3a://bucket/folder';然后我运行:INSERTINTOexport.export_tableSELECT*FR

hadoop - 清洁 AWS EMR 以允许重用

我有几项任务要在不共享数据的AWSEMR上执行,我想使用同一个EMR一个接一个地执行它们。有没有办法将正在运行的EMR清理回其初始状态(删除配置单元表,清理所有HDFS文件等)避免数据冲突?我想重用EMR有几个原因:创建新的EMR可能需要5-10分钟。我的任务是相对较短的时间,20-25分钟。一旦创建了EMR,您就已经为整个小时付费了。 最佳答案 我们没有找到“快速而干净”的API来实现此行为。相反,我们巩固了一种简单的工作方法,以保证我们可以清理所有数据。我们使用特定的数据库而不是默认的数据库。我们将所有内部数据文件放在HDFS中

hadoop - Hive:GROUP By 上的子查询

需要Hive查询的帮助。我写了一个Hive查询:selectto_date(from_unixtime(epoch))asdate,count1,count2,count3fromtable1wherecount3=168这给我的结果如下:datecount1count2count37-15-2015168377-15-2015168157-15-201516843andsimilarlyforotherdates....最后,我需要编写一个查询,返回每个日期的count2和count3的中值。例如:我需要输出为:datecount1count2count37-15-201516835

amazon-web-services - 如何使用 "s3a://"方案让 Hive 2.2.1 成功与 AWS S3 集成

我遵循了各种已发布的文档,了解如何使用s3a://方案将ApacheHive2.1.1与AWSS3集成,配置fs.s3a.access.key和fs.s3a.secret.key用于hadoop/etc/hadoop/core-site.xml和hive/conf/hive-site.xml.我现在可以让hdfsdfs-lss3a://[bucket-name]/正常工作(它返回那个桶的s3ls)。所以我知道我的信用、存储桶访问和整体Hadoop设置是有效的。hdfsdfs-lss3a://[bucket-name]/drwxrwxrwx-hdfshdfs02017-06-2722:4

amazon-web-services - Hadoop 配置单元无法在 AWS EMR 上扩展

我正在hadoophive上运行一个实验。在这个实验中,我在2个不同的硬件设置上运行相同的配置单元作业。它托管在AWSEMR中。这是我运行的hive.sql脚本:DROPDATABASEIFEXISTSlabtest;CREATEDATABASElabtest;CREATETABLEIFNOTEXISTSlaborder(InserttsTIMESTAMP,ordernrSTRING,PatientnrSTRING,visitnrSTRING)ROWFORMATSERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'WITHSERDEPROPE

exception - AWS EC2 上的 Spark 在开始我的工作时抛出 EOFException

我正在尝试在我使用他们提供的Spark-ec2脚本创建的Spark集群上运行我的Spark作业。我能够运行SparkPi示例,但每当我运行我的工作时,我都会收到此异常:Exceptioninthread"main"java.io.IOException:Calltoec2-XXXXXXXXXX.compute-1.amazonaws.com/10.XXX.YYY.ZZZZ:9000failedonlocalexception:java.io.EOFExceptionatorg.apache.hadoop.ipc.Client.wrapException(Client.java:1107

sql - Spark : Group RDD Sql Query

我有3个RDD需要加入。valevent1001RDD:schemaRDD=[eventtype,id,location,date1][1001,4929102,LOC01,2015-01-2010:44:39][1001,4929103,LOC02,2015-01-2010:44:39][1001,4929104,LOC03,2015-01-2010:44:39]valevent2009RDD:schemaRDD=[eventtype,id,celltype,date1](不按id分组,因为我需要4个日期,具体取决于celltype)[2009,4929101,R01,2015-01

mysql - GROUP BY 和加入 HIVE

我怎样才能在HIVE中做这样的事情:表1:IDNameFriends1Tom5表2:IDNameDOB1Jerry10/10/19991KateNull1Peter02/11/19831RobertNull1Mitchell09/09/2000我想做的是:对于表1中的每个ID,找出num个不为空的DOB,然后除以Friends我写了一个查询:SELECTt.ID,t.Friends,COUNT(s.DOB)/t.FriendsfromTable1tjoinTable2son(t.ID=s.ID)GROUPBYt.ID当我这样做时,我收到错误消息,因为FRIENDS不是GROUPBYKe

hadoop - AWS - Hadoop 集群 - 节点启动但不工作

我在我的本地服务器中设置了hadoop集群,它运行良好,我正在将其复制到AWS服务器(1个主NN、1个辅助名称节点、7个从属节点),我能够启动我的hadoop。但是我无法打开像:50070/dfshealth.jsp这样的页面。我已经正确地完成了安装,并且ssh公钥身份验证也与我在本地设置中所做的一样。日志中也没有异常的东西。还有什么我可以调查的吗? 最佳答案 如果日志正常,则确保打开必要的Hadoop端口。与您的本地设置不同,在AWS中,您应该询问他们要打开的特定端口。在这种情况下,您必须请求打开所需的Hadoophttp和RPC