aws-codebuild

hadoop - 亚马逊 AWS 上的区域服务器数量

假设我在Amazonelasticmapreduce上启动了一个集群，并且有一个主节点实例、2个核心节点实例和15个任务节点实例。我想我使用mapreduce作业和增量上传将大约1TB的数据上传到hbase。现在-如何找到表大小和区域拆分(字节)。通常在CDH上我会做一个hadoopfs-du/hbase。但是我的master节点上没有/hbase目录。我也很想知道区域服务器分配将如何运作。因此，即使我有100个区域(如果我有1个主节点)，这也意味着整个IO都会受到限制吗？谢谢问候最佳答案您是否使用ElasticMapReduc

hadoop - 在 AWS 中使用 weka 将主机名分配给 hadoop 作业

我一直在本地机器上使用wekaDistributedHadoop1.0.4和wekaDistributedBase1.0.2包来运行一些基本作业。必须填写一个字段“HDFS主机”才能运行作业。自从我在本地机器上进行测试以来，我一直在使用“localhost”，而且效果很好。在AWSEMR上运行时，我盲目地尝试使用“localhost”，但作业失败了。我想知道的是我应该在该字段中输入什么主机名，以便weka调用正确的主机？是在启动集群时提供的公共(public)DNS名称，还是API中有一种方法可以为我获取该地址？最佳答案如果你想

hadoop 配给 section questions ec2-public-dns-inside-a-running-i amazon-web-services hdfs weka emr

hadoop - 无法通过命令行界面连接到亚马逊 AWS EMR

当我尝试通过命令行在AWS上运行mapreduce作业时遇到了问题。我必须执行大量相互链接的步骤(大约100个)。由于我不希望使用AWS图形界面手动配置它，因此我尝试使用CLI来完成它。然而，即使是最简单的命令也不起作用:$awsemrlist-clustershostname'elasticmapreduce.us-west-1.amazonaws.com'doesn'tmatchu'us-west-1.elasticmapreduce.amazonaws.com'在S3上，我的配置似乎工作正常，因为此命令创建存储桶没有任何问题:$awss3mbs3://randombigdatab

hadoop AWS section code pre amazon-web-services configuration amazon-s3 emr

hadoop - AWS Spark 集群设置错误

我已经创建了一个AWSkey对。我正在逐字逐句地遵循此处的说明:https://aws.amazon.com/articles/4926593393724923当我输入"awsemrcreate-cluster--nameSparkCluster--ami-version3.2--instance-typem3.xlarge--instance-count3--ec2-attributesKeyName=MYKEY--应用程序名称=Hive--bootstrap-actionsPath=s3://support.elasticmapreduce/spark/install-spark"

hadoop Spark section elasticmapreduce noreferrer amazon-web-services

hadoop - 来自 inputStream 的 AWS 分段上传具有错误的偏移量

我正在使用JavaAmazonAWSSDK执行一些从HDFS到S3的分段上传。我的代码如下:for(inti=startingPart;currentFilePosition但是，上传的文件与原始文件不一样。更具体地说，我正在测试一个大约有20MB的测试文件。我上传的部分每个5MB。在每个5MB部分的末尾，我看到一些额外的文本，其长度始终为96个字符。更奇怪的是，如果我在.withFileOffset()中添加一些愚蠢的东西，例如，.withFileOffset(currentFilePosition-34)错误保持不变。我原以为会得到其他字符，但我得到了EXACT96个额外字符，就好

偏移 inputStream currentFilePosition section hadoop amazon-web-services amazon-s3 hdfs

java - Hadoop 2.6.x 和 Amazon AWS SDK Library 冲突 http-core 冲突

我的工作是将每条记录写入Hadoop映射中的DynamoDB。我无法使用具有httpclient-4.2.5.jar和httpcore-4.2.5.jar的Hadoop2.6运行它。我使用的AWS是使用httpclient-4.5.2.jar和httpcore-4.4.4.jar构建的。当我使用类路径来包含新的jar文件时，出现以下异常。java.lang.Exception:java.lang.NoSuchFieldError:INSTANCEatorg.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.j

http-core Library gt lt artifactId java hadoop amazon-web-services

hadoop - AWS EMR kerberizing 集群 hadoop.security.AccessControlException

我正在尝试对AWSEMR集群进行Kerberize。我启用了hadoop安全性，创建了kerberos主体并将它们部署在所有节点上。但是，当我使用命令“sudostarthadoop-hdfs-namenode”启动名称节点时，会抛出以下异常。2016-06-0806:14:06,515INFOorg.apache.hadoop.hdfs.server.blockmanagement.DatanodeDescriptor(main):Numberoffailedstoragechangesfrom0to02016-06-0806:14:06,515INFOorg.apache.hado

hadoop AccessControlException Server apache amazon-web-services kerberos emr

java - 在 AWS EMR 中，我如何记录类路径以调试类加载器问题

我陷入了Classloaderhell-Hadoop(最高2.7.2)使用了过时版本的HttpClient(4.2.5)https://hadoop.apache.org/docs/r2.7.2/hadoop-mapreduce-client/hadoop-mapreduce-client-core/dependency-analysis.html这与我使用的HttpClient版本4.5.1冲突。我试图在我的EMR作业中首先加载用户类路径，但随后我在Codec类上发生冲突。我什至重写了类以使用旧版本(4.2.5)，但仍然遇到一些冲突。在我的EMR作业中，如何打印StdOut/StdE

java AWS hadoop section mapreduce amazon-web-services elastic-map-reduce

amazon-web-services - AWS EMR jupyter 密码

我正在使用EMR并想使用jupyter(ipython)，所以我向集群添加了引导操作:s3://elasticmapreduce.bootstrapactions/ipython-notebook/install-ipython-notebook我执行了端口隧道以从我的本地主机访问jupyter并且工作正常，但它要求输入登录密码，尝试为空，尝试hadoop，但没有运气，有人知道jypyter密码是什么吗？最佳答案当我使用相同的引导操作时，我也遇到了这个问题。我试着加入Args=[--password,jupyter]我也无法工作

amazon-web-services services code jupyter notebook hadoop jupyter-notebook amazon-emr

amazon-web-services - AWS Data Pipeline 中有任何东西可以通过决策脚本停止执行特定事件吗？

我们的数据管道中有5个管道，它们在以下基础上执行:管道1-管道4=每天管道5-月底。我们正在考虑为管道5创建单独管道的选项，因为它对其他管道没有任何依赖性。有没有什么办法可以执行除管道5之外的所有管道，就像我们在OOZIE中所做的那样，它可以成功地忽略管道5的执行并完成管道而没有任何“错误”/“等待依赖项”状态？最佳答案您最好创建多个管道并将它们设置在不同的时间表上。如果您想让事情变得有趣，您可以使用Cloudwatch调度和AWSLambda以类似cron的方式安排管道创建/删除。您还可以使用AWSStep函数来定义每个组件的

amazon-web-services Pipeline section 数来管道 hadoop amazon-data-pipeline

152 153 154155156 157 158