草庐IT

amazon-elasticache

全部标签

hadoop - 当我使用 Amazon EMR 上的 Hive 引擎从 Presto 导出数据时发生 FileAlreadyExistsException

我尝试使用Presto和AmazonEMR上的Hive引擎将数据从S3存储桶导出到其他S3存储桶,如ETL,但在我导出数据时发生了FileAlreadyExistsException。如何使用Presto导出数据?环境emr-4.3.0hive1.0.0Presto-Sandbox0.130错误我尝试了以下操作:$hivehive>CREATEEXTERNALTABLElogs(logstring)->LOCATION's3://foo-bucket/logs/';hive>CREATEEXTERNALTABLEs3_export(logstring)->ROWFORMATDELIMI

hadoop - 解析参数错误,amazon aws emr

我正在尝试通过Linux控制台创建一个步骤:awsemradd-steps--cluster-idj-XXXXXXXXXX--stepsType=CUSTOM_JAR,Name="S3DistCpstep",Jar=/home/hadoop/lib/emr-s3distcp-1.0.jar,\Args=["--s3Endpoint,s3-eu-west-1.amazonaws.com","--src,s3://folder-name/logs/j-XXXXXXXXXX/node/","--dest,hdfs:///output","--srcPattern,.*[a-zA-Z,]+"]

amazon-web-services - 亚马逊 S3 错误代码 : 400 while running mr-job on EMR

在EMR上运行自定义jar时出现此错误。Exceptioninthread"main"com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception:BadRequest(Service:AmazonS3;StatusCode:400;ErrorCode:400BadRequest;RequestID:B042BB0B40A75966),S3ExtendedRequestID:vr/DUr8HD3xjomauyzqvVdGuW3fHBP8PDUmTIAoVLUxrmsxh9H+OS

amazon-web-services - Amazon EMR MapReduce 进度回滚?

嗨,我刚刚想到了一个奇怪的任务:我使用EMR运行java-MapReduce作业。数据大概是1T,我用的是1master+8slave。所有实例都是r2.2xlarge。最初,一切看起来都很好,如下所示:INFOmapreduce.Job:map0%reduce0%INFOmapreduce.Job:map1%reduce0%INFOmapreduce.Job:map2%reduce0%INFOmapreduce.Job:map3%reduce0%INFOmapreduce.Job:map4%reduce0%INFOmapreduce.Job:map5%reduce0%INFOmapr

amazon-web-services - 我失去了从主服务器到从服务器(AWS EC2 Hadoop)的 ssh 连接能力

我最近失去了通过ssh将我的主人连接到我的奴隶和辅助名称节点的能力。我有4个EC2实例,上面有一个hadoop集群(一个NameNode、一个辅助nameNode和2个从节点)。我仍然可以用putty建立ssh连接,但是我无法实现如下的ssh连接:sshubuntu@instanceDns。我有以下错误:Permissiondenied(publickey).我确定我没有对ssh连接进行任何更改,所以我有点惊讶。这是一个详细的ssh连接试探性屏幕。我注意到我的.ssh文件中不再有id_rsa、id_rsa-cert和其他文件。我猜他们以前在这里,但我不知道他们会这样消失。为什么会这样?

amazon-web-services - 如何更改在 AWS 数据管道中运行的 Hive 事件的内存设置?

在使用AWSDataPipeline运行一个HiveActivity时,我的Hive事件失败并出现以下错误:Diagnostics:Container[pid=,containerID=]isrunningbeyondphysicalmemorylimits.Currentusage:1.0GBof1GBphysicalmemoryused;2.8GBof5GBvirtualmemoryused.Killingcontainer.当我运行由HiveActivity手动执行的Hive脚本时,我必须按如下所示执行它:hive\-hiveconftez.am.resource.memory.

amazon-web-services - 备份 hive 内表的最佳存储格式

我有一个包含大约5亿条记录的Hive内部表。我的配置单元部署在AWSEMR之上。我不想让AWSEMR一直运行。因此,我想备份配置单元内表数据。一种简单的方法是创建一个指向S3位置的外部表,然后使用插入命令将所有记录移动到该外部表中。当我需要取回内部表时,我可以使用这个外部S3表取回所有数据。由于此表仅用于备份,我想问一下哪种存储格式对我来说是最佳选择。Hive目前支持以下格式TEXTFILESEQUENCEFILEORCPARQUETAVRORCFILE除了上述方法之外,还有其他方法可以备份您的内部表。 最佳答案 简而言之我认为更改

amazon-web-services - 几次成功请求后 Hadoop S3 驱动程序出现 403 错误

我将AWSS3驱动程序与ApacheNutch结合使用,将文件从EC2实例上传到S3存储桶。EC2附加了IAM策略以允许访问S3存储桶:{"Version":"2012-10-17","Statement":[{"Effect":"Allow","Action":["s3:ListBucket"],"Resource":["arn:aws:s3:::storage"]},{"Effect":"Allow","Action":["s3:PutObject","s3:GetObject","s3:DeleteObject","s3:GetObjectAcl"],"Resource":["a

amazon-ec2 - 将新卷添加到伪分布式 Hadoop 节点无提示失败

我试图通过在hdfs-site.xml中的dfs.name.dir中添加卷的位置来向Hadoop伪分布式节点添加新卷>,我可以在这个位置看到锁定文件-但尽我所能尝试,似乎当我加载文件(使用配置单元)时,这些位置几乎没有被使用(即使锁定文件和一些子文件夹出现..所以Hadoop显然可以访问它们)。当主卷即将用完空间时,我会收到以下异常:Failedwithexceptionjava.io.IOException:File/tmp/hive-ubuntu/hive_2011-02-24_15-39-15_997_1889807000233475717/-ext-10000/test.csv

amazon-s3 - 学习 Amazon Web Services 的好书

按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visitthehelpcenter指导。关闭11年前。我想知道一些可以帮助我快速入门AWS的好书和一些可以帮助我正确学习AWS的书。我的实际目标是使用EC2和S3设置Hadoop集群。