AWS-EC_草庐IT

hadoop - 当我使用 aws 凭证时出现 Distcp 重试错误

我正在尝试将一些日志文件从hdfs推送到s3存储桶我正在为此使用distcp命令，但它一直在尝试很长时间，请帮助我解决问题。sudo-uhdfshadoopdistcp-Dfs.s3a.access.key="xxxxxxxxxx"-Dfs.s3a.secret.key="xxxxxxxxxxxxxx"hdfs://prod1/data/exchange/inventory_snapshot/20160610s3a://test-inventory-snapshot/test/18/11/2715:01:41INFOtools.DistCp:InputOptions:DistCpOpt

时出 hadoop xxxx xx RetryUpToMaximumCountWithFixedSle amazon-s3 hdfs

linux - 在哪里可以找到适用于 EC2 上的 Hadoop 的 AMI？

我正在尝试在AmazonEC2上永久设置Hadoop。目前我正在做的是每天早上启动EC2实例并设置Hadoop。有什么办法可以避免这个繁琐的步骤吗？我正在寻找可以加载到EC2上的Hadoop镜像，让事情变得简单。我知道我可以将EMR用于hadoop服务。但是我不知道如何在不提交作业流的情况下启动EMR(hadoop)集群。我的意思是我需要一个没有运行任何作业的hadoop集群。最终我的目标是运行像Distmap这样的生物信息学应用程序和Seal.要运行这些应用程序，有许多依赖项。所以我需要一个免费的hadoop集群来搭建环境，然后运行这些应用。我希望它清楚我正在尝试做什么。谢谢。

Hadoop linux section AMI amazon-web-services amazon-ec2 bioinformatics

amazon-ec2 - 当我尝试进行查询时 Hive 没有响应

我在使用Whirr启动新的hadoop实例的EC2实例上进行了设置。我一直在尝试让Hive使用此设置。Hive应配置为使用mysql作为本地元存储。我遇到的问题是，每次我尝试通过配置单元界面运行类似(CREATETABLEtesters(fooINT,barkSTRING);)这样的查询时，它只是卡在那里，似乎没有做任何事情。如有任何帮助，我们将不胜感激。最佳答案我会先从配置单元命令行获取调试输出，看看它卡在哪里。使用此参数运行配置单元shell，然后粘贴命令的输出。hive-hiveconfhive.root.logger=D

amazon-ec amazon section 配置单 stackoverflow amazon-ec2 hadoop hive

amazon-web-services - 登录 Elastic Mapreduce 的最佳实践 - AWS

我计划将AmazonEMR用于SparkStreaming应用程序。亚马逊提供了一个很好的界面来显示标准错误和Controller日志。但是对于流式应用程序，我不确定如何管理日志。亚马逊将数据记录到/var/log/hadoop/steps/和Spark的类似地方。http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-manage-view-web-log-files.html我想知道我们如何轮换日志并且仍然可以通过awsemrWeb界面访问。我们可以通过配置hadoop-log4j轻松更改日志轮换策

amazon-web-services Mapreduce section emr-manage-view-web-log-files ElasticMapReduce hadoop spark-streaming amazon-emr

amazon-ec2 - 如何使用 Apache Whirr 在 AWS 上建立单节点 Hadoop 实例？

我正在尝试使用ApacheWhirr在AmazonWebServices上运行Hadoop的单节点实例。我将whirr.instance-templates设置为1jt+nn+dn+tt。该实例启动正常。我能够创建目录，但是当我尝试put文件时，我得到一个Filecouldonlybereplicatedto0nodes,insteadof1error。当我执行hadoopfsck/时，出现Exceptioninthread"main"java.net.ConnectException:Connectionrefused错误。有谁知道我的配置有什么问题吗？

amazon-ec amazon code section stackoverflow amazon-ec2 hadoop amazon-web-services cloudera

python - 如何动态扩展 StarCluster/qsub/EC2 以跨多个节点运行并行作业

我不熟悉使用Startcluster/qsub/gridengine来运行并行作业，我尝试阅读其他几篇与此相关的文章。我仍然不确定如何为我的特定要求构建可扩展的解决方案。在继续进行相同的操作之前，我想听取更多建议。这是我的要求:我有一个巨大的tar文件[~40-50GB，最大可达100GB]----->我在这里无能为力。我接受了一个巨大的单个tar文件作为输入。我必须解压缩它----->我运行tarxvftarfilename.tar|parallelpbzip-d解压和解压缩相同的。这个解压缩的输出是几十万个文件，大约500,000个文件。必须处理这些未压缩的文件。我有模块化代码，可

StarCluster python li section 的 hadoop qsub parallel-python

hadoop - 使用 Amazon AWS 中的公共(public)数据集是否需要支付数据传输费用？

基本上，我的单个t1.micro实例处于免费层级。我想使用维基百科转储文件公共(public)数据集。如果我在我的实例中处理来自该数据集的大约2-4GB数据，亚马逊会向我收费吗？最佳答案任何数据进入AWS网络都是免费的，如果您的数据从AWS网络移出则需要付费关于hadoop-使用AmazonAWS中的公共(public)数据集是否需要支付数据传输费用？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow

hadoop Amazon section stackoverflow 维基 amazon-web-services amazon-ec2

hadoop - 亚马逊 AWS 上的区域服务器数量

假设我在Amazonelasticmapreduce上启动了一个集群，并且有一个主节点实例、2个核心节点实例和15个任务节点实例。我想我使用mapreduce作业和增量上传将大约1TB的数据上传到hbase。现在-如何找到表大小和区域拆分(字节)。通常在CDH上我会做一个hadoopfs-du/hbase。但是我的master节点上没有/hbase目录。我也很想知道区域服务器分配将如何运作。因此，即使我有100个区域(如果我有1个主节点)，这也意味着整个IO都会受到限制吗？谢谢问候最佳答案您是否使用ElasticMapReduc

hadoop AWS section HBase elastic-map-reduce

hadoop - 在 AWS 中使用 weka 将主机名分配给 hadoop 作业

我一直在本地机器上使用wekaDistributedHadoop1.0.4和wekaDistributedBase1.0.2包来运行一些基本作业。必须填写一个字段“HDFS主机”才能运行作业。自从我在本地机器上进行测试以来，我一直在使用“localhost”，而且效果很好。在AWSEMR上运行时，我盲目地尝试使用“localhost”，但作业失败了。我想知道的是我应该在该字段中输入什么主机名，以便weka调用正确的主机？是在启动集群时提供的公共(public)DNS名称，还是API中有一种方法可以为我获取该地址？最佳答案如果你想

hadoop 配给 section questions ec2-public-dns-inside-a-running-i amazon-web-services hdfs weka emr

hadoop - 无法通过命令行界面连接到亚马逊 AWS EMR

当我尝试通过命令行在AWS上运行mapreduce作业时遇到了问题。我必须执行大量相互链接的步骤(大约100个)。由于我不希望使用AWS图形界面手动配置它，因此我尝试使用CLI来完成它。然而，即使是最简单的命令也不起作用:$awsemrlist-clustershostname'elasticmapreduce.us-west-1.amazonaws.com'doesn'tmatchu'us-west-1.elasticmapreduce.amazonaws.com'在S3上，我的配置似乎工作正常，因为此命令创建存储桶没有任何问题:$awss3mbs3://randombigdatab

hadoop AWS section code pre amazon-web-services configuration amazon-s3 emr