草庐IT

amazon-athena

全部标签

hadoop - Amazon Elastic MapReduce 在主节点上完成引导操作,但在核心节点上挂起

我在1个主节点和25个核心节点上运行AmazonElasticMapReduce(EMR)作业。引导操作在主节点上完成,但它们卡在核心节点上。构成map步骤的约5000个(共5200个)任务随后被报告为“正在运行”,而其余任务则为“待定”。然而,因为核心节点挂起,实际上没有任何东西在运行;我可以说是因为没有写入中间输出。大约30分钟后,所有之前“正在运行”的任务都被标记为“killed_unclean”并转为“待处理”。几分钟后,核心节点上的引导操作完成,但没有任何任务从“待定”状态转变为“运行状态”。当我使用2个核心节点而不是25个核心节点运行作业时,不会出现此问题;任务按预期完成。

hadoop - 带有本地 Hadoop 集群的 Amazon S3

我在AmazonS3中有大约40TB的数据,我需要使用MapReduce对其进行分析。我们当前的IT政策没有为此提供AmazonEMR帐户,因此我必须依赖本地管理的Hadoop集群。当我们的数据实际存储在S3上时,我想获得有关是否建议使用本地Hadoop集群的建议? 最佳答案 请查看https://wiki.apache.org/hadoop/AmazonS3关于如何使用S3替代HDFS。您可以选择S3NativeFileSystem或S3BlockFileSystem。 关于hadoo

hadoop - 在 Amazon Web Services 上的 Elastic MapReduce 上定义一个 HDFS 文件

我开始在HadoopMapReduce框架上实现KMeans算法。在这方面,我正在使用AmazonWebServices提供的弹性MapReduce。我想创建一个HDFS文件以在其上保存初始集群坐标,并在其上存储reducer的最终结果。我在这里完全困惑。无论如何要创建或“上传”这个文件到HDFS格式,以便所有映射器都能看到。有这方面的说明吗?谢谢。 最佳答案 最后我知道了怎么做。所以,为了将HDFS文件上传到集群中。您必须通过Putty连接到您的集群(通过使用安全key)。然后编写这些命令hadoopdistcps3://buck

azure - 从 Azure HDInsight 迁移到 Amazon EMR?

需要大数据专家的帮助。我们目前已经开始构建一个具有大数据需求的产品,并且我们选择了Hadoop。我们目前在大数据方面没有太多经验。对于我们的云平台和Hadoop,我们试图在AzureHDInsight和AmazonAWSEMR之间做出选择。我们的产品将使用.Net构建,我们已经将Azure用于另一个现有产品。我们也有使用AWS的经验,但还没有使用Hadoop。现在,我们知道Azure不如EMR成熟,而AWS会是更好的选择,至少在未来几年是这样。但是,使用.Net在Azure上进行开发可能会更容易,并且还可以节省一些前期成本,因为我们已经在使用它。因此,我们正在考虑在Azure上构建产品

hadoop - amazon s3n 与 hadoop mapreduce 的集成不起作用

我正在尝试对存储在amazons3中的文件运行一些mapreduce作业。我看到了http://wiki.apache.org/hadoop/AmazonS3并按照它进行集成。这是我的代码,它为mapreduce作业设置输入目录FileInputFormat.setInputPaths(job,"s3n://myAccessKey:mySecretKey@myS3Bucket/dir1/dir2/*.txt");当我运行mapreduce作业时出现此异常Exceptioninthread"main"java.lang.IllegalArgumentException:WrongFS:s

hadoop - 在 Amazon EMR 上运行 Pig 字数统计脚本时出现错误

以下是我的代码示例。我正在尝试制作旧约字数统计的演示。当我尝试通过亚马逊EMR运行此代码时,该步骤失败。我已将代码作为纯文本文件上传到EMR,并且我的所有路径都是正确的。这是我的代码:a=load's3://joe-hadoop-first-try/oldtest/oldtest.txt'as(f1:chararray);b=foreachagenerateFLATTEN(TOKENIZE(f1))asword;c=groupbbyword;d=FOREACHcGENERATECOUNT(b),group;storedinto's3://joe-hadoop-first-try/wor

hadoop - 将文件从 Amazon s3 复制到 hadoop

我发现了类似的问题,但没有一个能回答我的问题:使用hadoopdistcp或s3-dist-cp在Hadoop和S3之间移动文件时,我应该在哪里存储凭据?我创建了一个新的AmazonEMR集群,现在我想从S3存储桶复制文件。以下方法不起作用:使用hadoopdistcp我在url中对凭据进行了编码:hadoopdistcps3n://:@/pathhdfs://但似乎该软件无法处理包含+的awskey或/,这种情况经常发生。使用urlencode对key进行编码不起作用,但会产生另一个错误,例如:java.lang.IllegalArgumentException:Bucketname

java - Hadoop 2.6.x 和 Amazon AWS SDK Library 冲突 http-core 冲突

我的工作是将每条记录写入Hadoop映射中的DynamoDB。我无法使用具有httpclient-4.2.5.jar和httpcore-4.2.5.jar的Hadoop2.6运行它。我使用的AWS是使用httpclient-4.5.2.jar和httpcore-4.4.4.jar构建的。当我使用类路径来包含新的jar文件时,出现以下异常。java.lang.Exception:java.lang.NoSuchFieldError:INSTANCEatorg.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.j

hadoop - 将中间 Amazon EMR 任务输出写入 S3

我正在运行一个输出数千GB数据的EMR作业。每个map任务输出10GB的数据,据我所知,这些中间输出存储在运行map任务的机器的磁盘上。因此,在同一台机器处理了多个map任务后,它会耗尽磁盘空间来存储这些map任务的中间结果。我知道如何在S3上存储最终结果(在reducer运行之后),但是有没有办法将中间输出(映射器的结果)也存储在S3上?不幸的是,仅仅分配更多的机器(或具有更多内存的机器)并不是一个实际的解决方案,因为我将在数百TB的数据上运行相同的作业。如有任何帮助,我们将不胜感激。 最佳答案 为了防止其他人遇到这个问题,我无法

hadoop - 步骤因 exitCode、Amazon Emr Hadoop、S3DistCp 而失败

我正在尝试创建一个“步骤”并将许多小文件收集到一个文件中,这样我就可以将它分开几天。问题是我正在跑intetando却不让我跑。执行它对我来说效果很好命令:hadoopdistcps3n://buket-name/output-files-hive/*s3n://buket-name/files-hive/test但是如果我已经输入了命令“groupby”或“srcPattern”,它不会让我有任何东西。在AmazonEMR控制台中创建“步骤”后,始终出现错误。你指出了文件命令:awsemradd-steps--cluster-idj-XXXXXXX--stepsName="S3Dis