ecs-cli

amazon-ec2 - 当我尝试进行查询时 Hive 没有响应

我在使用Whirr启动新的hadoop实例的EC2实例上进行了设置。我一直在尝试让Hive使用此设置。Hive应配置为使用mysql作为本地元存储。我遇到的问题是，每次我尝试通过配置单元界面运行类似(CREATETABLEtesters(fooINT,barkSTRING);)这样的查询时，它只是卡在那里，似乎没有做任何事情。如有任何帮助，我们将不胜感激。最佳答案我会先从配置单元命令行获取调试输出，看看它卡在哪里。使用此参数运行配置单元shell，然后粘贴命令的输出。hive-hiveconfhive.root.logger=D

amazon-ec2 - 如何使用 Apache Whirr 在 AWS 上建立单节点 Hadoop 实例？

我正在尝试使用ApacheWhirr在AmazonWebServices上运行Hadoop的单节点实例。我将whirr.instance-templates设置为1jt+nn+dn+tt。该实例启动正常。我能够创建目录，但是当我尝试put文件时，我得到一个Filecouldonlybereplicatedto0nodes,insteadof1error。当我执行hadoopfsck/时，出现Exceptioninthread"main"java.net.ConnectException:Connectionrefused错误。有谁知道我的配置有什么问题吗？

amazon-ec amazon code section stackoverflow amazon-ec2 hadoop amazon-web-services cloudera

python - 如何动态扩展 StarCluster/qsub/EC2 以跨多个节点运行并行作业

我不熟悉使用Startcluster/qsub/gridengine来运行并行作业，我尝试阅读其他几篇与此相关的文章。我仍然不确定如何为我的特定要求构建可扩展的解决方案。在继续进行相同的操作之前，我想听取更多建议。这是我的要求:我有一个巨大的tar文件[~40-50GB，最大可达100GB]----->我在这里无能为力。我接受了一个巨大的单个tar文件作为输入。我必须解压缩它----->我运行tarxvftarfilename.tar|parallelpbzip-d解压和解压缩相同的。这个解压缩的输出是几十万个文件，大约500,000个文件。必须处理这些未压缩的文件。我有模块化代码，可

StarCluster python li section 的 hadoop qsub parallel-python

hadoop - hive-site.xml 中的 hive.cli.print.current.db 停止工作

我曾经在$HIVE_HOME/conf/hive-site.xml中将hive.cli.print.current.db设置为true，以便在配置单元提示符中自动显示数据库名称。此配置最近停止工作，因此每次启动配置单元时我都必须手动设置它的值。有没有人遇到过同样的问题，你的解决方案是什么？谢谢! 最佳答案此属性应在配置单元配置目录(/etc/hive/conf)的.hiverc文件中指定(而不是在hive-site.xml中)。创建文件/.hiverc如果不存在以下内容sethive.cli.print.current.db=tr

hive hive-site section 配置单 hadoop

hadoop - 在使用 ./spark-ec2 部署的集群上更改 JDK

我已经使用Spark部署了一个AmazonEC2集群，如下所示:~/spark-ec2-kspark-i~/.ssh/spark.pem-s2--region=eu-west-1--spark-version=1.3.1launchspark-cluster我先将我需要的文件复制到master，然后从master复制到HDFS，使用:ephemeral-hdfs/bin/hadoopfs-put~/ANTICOR_2_10000.txt~/user/root/ANTICOR_2_10000.txt我有一个我想运行的jar，它是用JDK8编译的(我使用了很多Java8特性)所以我用scp

spark-ec hadoop code spark section amazon-ec2 apache-spark spark-ec2

hadoop - Flume 使用 ec2 实例 IAM 凭证汇入 s3

我有一个水槽，用于将数据写入awss3存储桶。Flume配置如下aggregator.sinks.s3LogSink.type=hdfsaggregator.sinks.s3LogSink.channel=flumeLogAgentFileChannelaggregator.sinks.s3LogSink.hdfs.path=s3n://aggregator.sinks.s3LogSink.hdfs.fileType=DataStreamaggregator.sinks.s3LogSink.hdfs.writeFormat=Textaggregator.sinks.s3LogSink.

汇入 hadoop java FileSystem apache amazon-s3 flume

hadoop - 即使删除了数据库，Hive CLI 也会显示数据库使用情况

1)创建一个数据库并使用它。hive>createdatabasetestdb;hive>usetestdb;2)设置hive.cli.print.current.db=true以显示正在使用哪个数据库。hive>sethive.cli.print.current.db=true;hive(testdb)>3)删除数据库。hive(testdb)>dropdatabasetestdb;4)设置hive.cli.print.current.db=false，然后将其设置回true。hive(testdb)>sethive.cli.print.current.db=false;hive>s

即使 hadoop hive section code

apache-spark - Hadoop CLI 命令获取使用的总内存等，如 8088 上的 Hadoop Web UI 所示

是否有CLI命令可用于获取此图片中显示的指标，因为它们出现在8088上的HadoopWebUI中？最佳答案 yarntop会显示这个。它的工作方式类似于UNIX/Linux命令top。源代码位于https://github.com/apache/hadoop/blob/trunk/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-client/src/main/java/org/apache/hadoop/yarn/client/cli/TopCLI.java:

Hadoop apache-spark section yarn hadoop-yarn

amazon-ec2 - Hadoop 安全模式恢复 - 花费大量时间

我们在AmazonEC2上运行我们的集群。我们正在使用cloudera脚本来设置hadoop。在主节点上，我们启动以下服务。609$AS_HADOOP'"$HADOOP_HOME"/bin/hadoop-daemon.shstartnamenode'610$AS_HADOOP'"$HADOOP_HOME"/bin/hadoop-daemon.shstartsecondarynamenode'611$AS_HADOOP'"$HADOOP_HOME"/bin/hadoop-daemon.shstartjobtracker'612613$AS_HADOOP'"$HADOOP_HOME"/bi

amazon-ec amazon 跟踪器 HADOOP section amazon-ec2 cloud hdfs

amazon-ec2 - EC2 上 Hadoop 集群中的按需从属生成

我计划在EC2上使用Hadoop。由于我们必须按实例使用量付费，因此拥有固定数量的实例而不是作业实际需要的数量是不好的。在我们的应用程序中，许多作业是并发执行的，我们始终不知道从属需求。是否可以用最少的从属启动hadoop集群，然后根据需求管理可用性？即按需创建/销毁奴隶子问题:hadoop集群能否同时管理多个作业？谢谢最佳答案 hadoop中使用的默认调度器是一个简单的FIFO调度器，您可以考虑使用FairScheduler，它为每个正在运行的作业分配一个集群份额，并具有广泛的配置来控制这些份额。就EC2而言-您可以轻松地从一些

从属 amazon-ec section 跟踪器 amazon-ec2 hadoop mapreduce

135 136 137138139 140 141