草庐IT

amazon-ec2 - 当我尝试进行查询时 Hive 没有响应

我在使用Whirr启动新的hadoop实例的EC2实例上进行了设置。我一直在尝试让Hive使用此设置。Hive应配置为使用mysql作为本地元存储。我遇到的问题是,每次我尝试通过配置单元界面运行类似(CREATETABLEtesters(fooINT,barkSTRING);)这样的查询时,它只是卡在那里,似乎没有做任何事情。如有任何帮助,我们将不胜感激。 最佳答案 我会先从配置单元命令行获取调试输出,看看它卡在哪里。使用此参数运行配置单元shell,然后粘贴命令的输出。hive-hiveconfhive.root.logger=D

amazon-ec2 - 如何使用 Apache Whirr 在 AWS 上建立单节点 Hadoop 实例?

我正在尝试使用ApacheWhirr在AmazonWebServices上运行Hadoop的单节点实例。我将whirr.instance-templates设置为1jt+nn+dn+tt。该实例启动正常。我能够创建目录,但是当我尝试put文件时,我得到一个Filecouldonlybereplicatedto0nodes,insteadof1error。当我执行hadoopfsck/时,出现Exceptioninthread"main"java.net.ConnectException:Connectionrefused错误。有谁知道我的配置有什么问题吗?

python - 如何动态扩展 StarCluster/qsub/EC2 以跨多个节点运行并行作业

我不熟悉使用Startcluster/qsub/gridengine来运行并行作业,我尝试阅读其他几篇与此相关的文章。我仍然不确定如何为我的特定要求构建可扩展的解决方案。在继续进行相同的操作之前,我想听取更多建议。这是我的要求:我有一个巨大的tar文件[~40-50GB,最大可达100GB]----->我在这里无能为力。我接受了一个巨大的单个tar文件作为输入。我必须解压缩它----->我运行tarxvftarfilename.tar|parallelpbzip-d解压和解压缩相同的。这个解压缩的输出是几十万个文件,大约500,000个文件。必须处理这些未压缩的文件。我有模块化代码,可

hadoop - hive-site.xml 中的 hive.cli.print.current.db 停止工作

我曾经在$HIVE_HOME/conf/hive-site.xml中将hive.cli.print.current.db设置为true,以便在配置单元提示符中自动显示数据库名称。此配置最近停止工作,因此每次启动配置单元时我都必须手动设置它的值。有没有人遇到过同样的问题,你的解决方案是什么?谢谢! 最佳答案 此属性应在配置单元配置目录(/etc/hive/conf)的.hiverc文件中指定(而不是在hive-site.xml中)。创建文件/.hiverc如果不存在以下内容sethive.cli.print.current.db=tr

hadoop - 在使用 ./spark-ec2 部署的集群上更改 JDK

我已经使用Spark部署了一个AmazonEC2集群,如下所示:~/spark-ec2-kspark-i~/.ssh/spark.pem-s2--region=eu-west-1--spark-version=1.3.1launchspark-cluster我先将我需要的文件复制到master,然后从master复制到HDFS,使用:ephemeral-hdfs/bin/hadoopfs-put~/ANTICOR_2_10000.txt~/user/root/ANTICOR_2_10000.txt我有一个我想运行的jar,它是用JDK8编译的(我使用了很多Java8特性)所以我用scp

hadoop - Flume 使用 ec2 实例 IAM 凭证汇入 s3

我有一个水槽,用于将数据写入awss3存储桶。Flume配置如下aggregator.sinks.s3LogSink.type=hdfsaggregator.sinks.s3LogSink.channel=flumeLogAgentFileChannelaggregator.sinks.s3LogSink.hdfs.path=s3n://aggregator.sinks.s3LogSink.hdfs.fileType=DataStreamaggregator.sinks.s3LogSink.hdfs.writeFormat=Textaggregator.sinks.s3LogSink.

hadoop - 即使删除了数据库,Hive CLI 也会显示数据库使用情况

1)创建一个数据库并使用它。hive>createdatabasetestdb;hive>usetestdb;2)设置hive.cli.print.current.db=true以显示正在使用哪个数据库。hive>sethive.cli.print.current.db=true;hive(testdb)>3)删除数据库。hive(testdb)>dropdatabasetestdb;4)设置hive.cli.print.current.db=false,然后将其设置回true。hive(testdb)>sethive.cli.print.current.db=false;hive>s

apache-spark - Hadoop CLI 命令获取使用的总内存等,如 8088 上的 Hadoop Web UI 所示

是否有CLI命令可用于获取此图片中显示的指标,因为它们出现在8088上的HadoopWebUI中? 最佳答案 yarntop会显示这个。它的工作方式类似于UNIX/Linux命令top。源代码位于https://github.com/apache/hadoop/blob/trunk/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-client/src/main/java/org/apache/hadoop/yarn/client/cli/TopCLI.java:

amazon-ec2 - Hadoop 安全模式恢复 - 花费大量时间

我们在AmazonEC2上运行我们的集群。我们正在使用cloudera脚本来设置hadoop。在主节点上,我们启动以下服务。609$AS_HADOOP'"$HADOOP_HOME"/bin/hadoop-daemon.shstartnamenode'610$AS_HADOOP'"$HADOOP_HOME"/bin/hadoop-daemon.shstartsecondarynamenode'611$AS_HADOOP'"$HADOOP_HOME"/bin/hadoop-daemon.shstartjobtracker'612613$AS_HADOOP'"$HADOOP_HOME"/bi

amazon-ec2 - EC2 上 Hadoop 集群中的按需从属生成

我计划在EC2上使用Hadoop。由于我们必须按实例使用量付费,因此拥有固定数量的实例而不是作业实际需要的数量是不好的。在我们的应用程序中,许多作业是并发执行的,我们始终不知道从属需求。是否可以用最少的从属启动hadoop集群,然后根据需求管理可用性?即按需创建/销毁奴隶子问题:hadoop集群能否同时管理多个作业?谢谢 最佳答案 hadoop中使用的默认调度器是一个简单的FIFO调度器,您可以考虑使用FairScheduler,它为每个正在运行的作业分配一个集群份额,并具有广泛的配置来控制这些份额。就EC2而言-您可以轻松地从一些