草庐IT

aws-documentdb-mongoapi

全部标签

hadoop - AWS EMR 性能 HDFS 与 S3

在大数据中,代码被推送到数据中执行。这是有道理的,因为数据很大而执行的代码相对较小。对于AWSEMR,数据可以位于HDFS或S3中。在S3的情况下,数据必须被拉到核心/任务节点以便从其他一些节点执行。与HDFS中的数据相比,这可能有点开销。最近,我注意到当MR作业正在执行时,将日志文件导入S3存在巨大的延迟。有时,即使在作业完成后,日志文件也要过几分钟才会出现。对此有什么想法吗?有没有人知道HDFS与S3中的数据完成MR作业的指标? 最佳答案 这在不同层面上是有问题的。S3只有最终一致性。在您的代码(例如close()或flush(

hadoop - 在 AWS EMR 上重启 Hive 服务

我对HIVE和AWS-EMR都很陌生。根据我的要求,我需要在集群外创建HiveMetastore(从AWSEMR到AWSRDS)。我按照中给出的说明进行操作http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-dev-create-metastore-outside.html我在hive-site.xml中进行了更改,并能够将hivemetaStore设置为AmazonRDSmysql服务器。为了使更改生效,目前我正在重新启动整个集群,以便配置单元开始将Metastore存储到AWS-RDS。这样就可

hadoop - AWS Elastic MapReduce 和 AWS Redshift 有什么区别

我看到AWSElasticMapReduce和AWSRedshift都采用集群结构,可以用来做数据分析。它们有哪些不同的用例?AmazonRedshift支持客户端连接多种类型的应用程序,包括商业智能(BI)、报告、数据和分析工具。AmazonElasticMapReduce(AmazonEMR)是一个托管集群平台,可简化在AWS上运行大数据框架(例如ApacheHadoop和ApacheSpark)以处理和分析大量数据的过程。 最佳答案 您说得对,AmazonEMR和AmazonRedshift都是可以横向扩展以提供更多计算能力的

hadoop - 如何静音 apache zookeeper 调试消息 (AWS EMR)?

如何在AWSElasticMapReduce主节点上静音DEBUG消息?hbase(main):003:0>listTABLEmydb1row(s)in0.0510secondshbase(main):004:0>00:25:17.104[main-SendThread(ip-172-31-14-206.ec2.internal:2181)]DEBUGorg.apache.zookeeper.ClientCnxn-Gotpingresponseforsessionid:0x1493a5c3b78001bafter1mshbase(main):005:0*00:26:17.165[mai

java - AWS EMR Step 失败,因为它创建的作业失败

我正在尝试分析Wikipediaarticleviewdataset使用亚马逊电子病历。该数据集包含三个月期间(2011年1月1日至2011年3月31日)的页面浏览统计数据。我试图找到那段时间浏览量最多的文章。这是我正在使用的代码:publicclassmostViews{publicstaticclassMapextendsMapReduceBaseimplementsMapper{privatefinalstaticIntWritableviews=newIntWritable(1);privateTextarticle=newText();publicvoidmap(LongWr

hadoop - AWS 上的 MapReduce

有人在AWS上玩过MapReduce吗?有什么想法吗?实现情况如何? 最佳答案 上手很容易。这是一个常见问题解答:http://aws.amazon.com/elasticmapreduce/faqs/这是入门指南:http://docs.amazonwebservices.com/ElasticMapReduce/latest/GettingStartedGuide/如果您已经拥有EC2账户,则可以使用AWS管理控制台启用MapReduce并在不到10分钟的时间内启动并运行示例应用程序。我做了预打包的字数统计示例应用程序,它返回大

hadoop - 我可以将 Hadoop 与 AWS4-HMAC-SHA256 一起使用吗?

我新创建的存储桶使用AWSSignatureVersion4.我正在尝试将它与Hadoop一起使用并收到消息:Exceptioninthread"main"org.apache.hadoop.fs.s3.S3Exception:org.jets3t.service.S3ServiceException:S3GETfailedfor'/'XMLErrorMessage:InvalidRequestTheauthorizationmechanismyouhaveprovidedisnotsupported.PleaseuseAWS4-HMAC-SHA256.HadoopAmazonS3上没

hadoop - 终止 aws 中的 Spark 步骤

我想在EMRspark集群上设置一系列spark步骤,如果当前步骤花费的时间太长,则终止当前步骤。但是,当我通过ssh进入主节点并运行hadoopjobs-list时,主节点似乎认为没有作业在运行。我不想终止集群,因为这样做会迫使我为我正在运行的任何集群购买一个全新的小时。谁能帮我终止EMR中的一个Spark步骤而不终止整个集群? 最佳答案 这很简单:yarnapplication-kill[applicationid]您可以列出您正在运行的应用程序yarnapplication-list

hadoop - 如何将 AWS 访问 key ID 和 secret 访问 key 指定为 amazon s3n URL 的一部分

我将输入和输出文件夹作为参数从网页传递给mapreduce字数统计程序。出现以下错误:HTTPStatus500-Requestprocessingfailed;nestedexceptionisjava.lang.IllegalArgumentException:AWSAccessKeyIDandSecretAccessKeymustbespecifiedastheusernameorpassword(respectively)ofas3nURL,orbysettingthefs.s3n.awsAccessKeyIdorfs.s3n.awsSecretAccessKeypropert

hadoop - 如何在 AWS EMR 上重启 yarn

我正在使用Hadoop2.6.0(emr-4.2.0图片)。我在yarn-site.xml中做了一些更改,并想重新启动yarn以使更改生效。是否有我可以使用的命令? 最佳答案 编辑(2017年10月26日):有关如何执行此操作的更详细的知识中心文章已由AWS在此处正式发布-https://aws.amazon.com/premiumsupport/knowledge-center/restart-service-emr/.您可以通过ssh进入您的EMR集群的主节点并运行-"sudo/sbin/stophadoop-yarn-reso