amazon-ebs

amazon-ec2 - 如何使用 Apache Whirr 在 AWS 上建立单节点 Hadoop 实例？

我正在尝试使用ApacheWhirr在AmazonWebServices上运行Hadoop的单节点实例。我将whirr.instance-templates设置为1jt+nn+dn+tt。该实例启动正常。我能够创建目录，但是当我尝试put文件时，我得到一个Filecouldonlybereplicatedto0nodes,insteadof1error。当我执行hadoopfsck/时，出现Exceptioninthread"main"java.net.ConnectException:Connectionrefused错误。有谁知道我的配置有什么问题吗？

hadoop - Amazon EMR 的输出文件夹

我想运行一个自定义jar，其主类是一系列mapreduce作业，第一个作业的输出作为第二个jar的输入，依此类推。我在FileOutputFormat.setOutputPath("whatpathshouldbehere?");中设置了什么？如果我在参数中指定-outputdir，我会收到错误FileAlraedyexists。如果我不指定，那么我不知道输出将落在哪里。我希望能够看到链接的mapreduce作业的每个作业的输出。感谢副词。请帮忙! 最佳答案您可能会收到“FileAlraedy存在”错误，因为该输出目录在您运行的作

hadoop Amazon section 中设 stackoverflow amazon-web-services amazon-s3 elastic-map-reduce amazon-emr

amazon-web-services - 降低亚马逊 EMR 上 100% Cpu 利用率的 Hive 技巧

我正在使用下表来处理大约15GB(.gz压缩)的iislog。使用亚马逊EMR(1个中型主实例、4个大型核心实例、2个任务实例)。甚至需要大约1小时才能获得此查询的结果:selecturi,cs_CookieasCookie,count(*)ashitsfromtmp1groupbycs_Cookie,uriorderbyhitsDesc;我看到所有DataNode上的cpu利用率每次都是100%。那么，有人可以建议如何减少查询时间和cpu利用率吗？表定义:createexternaltablemarData(logdatestring,timestring,computernames

amazon-web-services services string section 34 hadoop hive amazon-emr

hadoop - 使用 Amazon AWS 中的公共(public)数据集是否需要支付数据传输费用？

基本上，我的单个t1.micro实例处于免费层级。我想使用维基百科转储文件公共(public)数据集。如果我在我的实例中处理来自该数据集的大约2-4GB数据，亚马逊会向我收费吗？最佳答案任何数据进入AWS网络都是免费的，如果您的数据从AWS网络移出则需要付费关于hadoop-使用AmazonAWS中的公共(public)数据集是否需要支付数据传输费用？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow

hadoop Amazon section stackoverflow 维基 amazon-web-services amazon-ec2

hadoop - Amazon Elastic MapReduce 在主节点上完成引导操作，但在核心节点上挂起

我在1个主节点和25个核心节点上运行AmazonElasticMapReduce(EMR)作业。引导操作在主节点上完成，但它们卡在核心节点上。构成map步骤的约5000个(共5200个)任务随后被报告为“正在运行”，而其余任务则为“待定”。然而，因为核心节点挂起，实际上没有任何东西在运行；我可以说是因为没有写入中间输出。大约30分钟后，所有之前“正在运行”的任务都被标记为“killed_unclean”并转为“待处理”。几分钟后，核心节点上的引导操作完成，但没有任何任务从“待定”状态转变为“运行状态”。当我使用2个核心节点而不是25个核心节点运行作业时，不会出现此问题；任务按预期完成。

MapReduce Elastic section stackoverflow hadoop amazon-web-services amazon-ec2 emr

hadoop - 带有本地 Hadoop 集群的 Amazon S3

我在AmazonS3中有大约40TB的数据，我需要使用MapReduce对其进行分析。我们当前的IT政策没有为此提供AmazonEMR帐户，因此我必须依赖本地管理的Hadoop集群。当我们的数据实际存储在S3上时，我想获得有关是否建议使用本地Hadoop集群的建议？最佳答案请查看https://wiki.apache.org/hadoop/AmazonS3关于如何使用S3替代HDFS。您可以选择S3NativeFileSystem或S3BlockFileSystem。关于hadoo

hadoop section strong https amazon-s3

hadoop - 在 Amazon Web Services 上的 Elastic MapReduce 上定义一个 HDFS 文件

我开始在HadoopMapReduce框架上实现KMeans算法。在这方面，我正在使用AmazonWebServices提供的弹性MapReduce。我想创建一个HDFS文件以在其上保存初始集群坐标，并在其上存储reducer的最终结果。我在这里完全困惑。无论如何要创建或“上传”这个文件到HDFS格式，以便所有映射器都能看到。有这方面的说明吗？谢谢。最佳答案最后我知道了怎么做。所以，为了将HDFS文件上传到集群中。您必须通过Putty连接到您的集群(通过使用安全key)。然后编写这些命令hadoopdistcps3://buck

MapReduce Services section 上实 hadoop amazon-web-services

azure - 从 Azure HDInsight 迁移到 Amazon EMR？

需要大数据专家的帮助。我们目前已经开始构建一个具有大数据需求的产品，并且我们选择了Hadoop。我们目前在大数据方面没有太多经验。对于我们的云平台和Hadoop，我们试图在AzureHDInsight和AmazonAWSEMR之间做出选择。我们的产品将使用.Net构建，我们已经将Azure用于另一个现有产品。我们也有使用AWS的经验，但还没有使用Hadoop。现在，我们知道Azure不如EMR成熟，而AWS会是更好的选择，至少在未来几年是这样。但是，使用.Net在Azure上进行开发可能会更容易，并且还可以节省一些前期成本，因为我们已经在使用它。因此，我们正在考虑在Azure上构建产品

HDInsight Amazon section Azure hadoop amazon-web-services azure-hdinsight

hadoop - amazon s3n 与 hadoop mapreduce 的集成不起作用

我正在尝试对存储在amazons3中的文件运行一些mapreduce作业。我看到了http://wiki.apache.org/hadoop/AmazonS3并按照它进行集成。这是我的代码，它为mapreduce作业设置输入目录FileInputFormat.setInputPaths(job,"s3n://myAccessKey:mySecretKey@myS3Bucket/dir1/dir2/*.txt");当我运行mapreduce作业时出现此异常Exceptioninthread"main"java.lang.IllegalArgumentException:WrongFS:s

hadoop mapreduce java DataMigrationManager amazon-s3 hdfs

hadoop - 在 Amazon EMR 上运行 Pig 字数统计脚本时出现错误

以下是我的代码示例。我正在尝试制作旧约字数统计的演示。当我尝试通过亚马逊EMR运行此代码时，该步骤失败。我已将代码作为纯文本文件上传到EMR，并且我的所有路径都是正确的。这是我的代码:a=load's3://joe-hadoop-first-try/oldtest/oldtest.txt'as(f1:chararray);b=foreachagenerateFLATTEN(TOKENIZE(f1))asword;c=groupbbyword;d=FOREACHcGENERATECOUNT(b),group;storedinto's3://joe-hadoop-first-try/wor

时出 hadoop joe-hadoop-first-try code amazon-web-services amazon-s3 apache-pig amazon-emr

130 131 132133134 135 136