ecs-cli_草庐IT

amazon-web-services - 我失去了从主服务器到从服务器(AWS EC2 Hadoop)的 ssh 连接能力

我最近失去了通过ssh将我的主人连接到我的奴隶和辅助名称节点的能力。我有4个EC2实例，上面有一个hadoop集群(一个NameNode、一个辅助nameNode和2个从节点)。我仍然可以用putty建立ssh连接，但是我无法实现如下的ssh连接:sshubuntu@instanceDns。我有以下错误:Permissiondenied(publickey).我确定我没有对ssh连接进行任何更改，所以我有点惊讶。这是一个详细的ssh连接试探性屏幕。我注意到我的.ssh文件中不再有id_rsa、id_rsa-cert和其他文件。我猜他们以前在这里，但我不知道他们会这样消失。为什么会这样？

amazon-ec2 - 将新卷添加到伪分布式 Hadoop 节点无提示失败

我试图通过在hdfs-site.xml中的dfs.name.dir中添加卷的位置来向Hadoop伪分布式节点添加新卷>，我可以在这个位置看到锁定文件-但尽我所能尝试，似乎当我加载文件(使用配置单元)时，这些位置几乎没有被使用(即使锁定文件和一些子文件夹出现..所以Hadoop显然可以访问它们)。当主卷即将用完空间时，我会收到以下异常:Failedwithexceptionjava.io.IOException:File/tmp/hive-ubuntu/hive_2011-02-24_15-39-15_997_1889807000233475717/-ext-10000/test.csv

amazon-ec amazon section code Hadoop amazon-ec2 hive

hadoop - 如何在 Windows 机器上配置 HDFS CLI？

有一个CLI工具可以直接在HDFS文件系统上使用。这是GitHubLink我使用的是Windows机器，我使用Putty终端连接集群中的HDFS。我遇到了上面的github链接，我希望HDFSCLI工具与putty集成。我确实浏览了链接，作者要求配置几个环境变量以使该工具正常工作。我对配置它们很困惑。我已经将二进制文件下载到我的Windows机器上。我应该配置Windows环境变量吗？如果我这样做，当我用来从Putty连接集群时，此更改将如何影响Putty终端。你们中的任何人都可以调查一下并详细回答以集成该工具吗？感谢您的帮助。最佳答案

何在 Windows section Putty hadoop hdfs command-line-interface bigdata

hadoop - Apache Spark Ec2 : could only be replicated to 0 nodes, 而不是 1

我有一个在Ec2d2.xlarge实例上运行的2Node集群，我有一个10Gb的文件要通过Spark处理，我在spark上安装了一个本地磁盘并在那里生成了10gb的数据集，但是当我我试图将其放入Hdfs中，它向我抛出错误"couldonlybereplicatedto0nodes,insteadof1"如下16/03/0921:44:25WARNhdfs.DFSClient:DataStreamerException:org.apache.hadoop.ipc.RemoteException:java.io.IOException:File/vinit/inputfile.txtcou

replicated hadoop java code apache-spark pyspark spark-streaming

jdbc - Hive JDBC 与 CLI 客户端

我需要使用Hive以编程方式访问数据(数据按每次查询GB的顺序排列)。我正在评估CLI驱动程序与HiveJDBC驱动程序。当我们使用JDBC时，thrift服务器会产生额外的开销，我想了解它有多大。如果多个客户端连接到单个节俭服务器，它也会成为单点瓶颈吗？或者人们在Hadoop上配置多个节俭服务器并做一些负载平衡是一种常见的做法吗？我正在寻找更好的性能而不是更快的原型(prototype)制作。提前致谢。最佳答案 Shengjie的链接不起作用-这可能会正确地自动链接:http://blog.milford.io/2011/07/

jdbc Hive section productionizing-the-hive-thrift-s 节俭 hadoop command-line-interface

hadoop - 通过 Chef 在ec2中设置ssh无密码

我在Chef中有以下recipe/default.rb:#CreateemptyRSApasswordtemplate"#{node[:cluster][:ubuntu]}/my_key.pem"dosource"keys.pem.erb"mode0400owner"ubuntu"group"ubuntu"endbash"ssh-passwordless"douser"ubuntu"cwd"#{node[:cluster][:ubuntu]}"code/tmp/tmp.pubkey;mkdir-p.ssh;touch.ssh/authorized_keys;grep#{node[:fq

中设 hadoop ubuntu ssh 34 amazon-web-services amazon-ec2 chef-infra

hadoop - 在 AWS EC2 上扩展根分区

我创建了一个公共(public)VPC，然后向其中添加了一堆节点，以便我可以将其用于spark集群。不幸的是，它们都具有如下所示的分区设置:ec2-user@sparkslave1:lsblk/dev/xvda100G/dev/xvda15.7G/我在这些机器上设置了一个云管理器，所有节点只剩下1G空间给HDFS。如何扩展分区以占用所有100G？我尝试创建/dev/xvda2，然后创建一个卷组，将所有/dev/xvda*添加到其中，但/dev/xvda1在挂载时没有添加。在这种情况下，我无法从liveCD启动，它在AWS上。我也试过resize2fs但它说根分区已经占用了所有可用的bl

hadoop AWS section li xvda amazon-web-services amazon-ec2

hadoop - Apache Apex CLI 命令中 Shutdown-app 和 kill-app 的区别

谁能帮我理解，ApacheAPEXCLI命令中的Shutdown-app和kill-app有什么区别？最佳答案 Shutdown-app会调用各个Operator的tearDown()方法并等待一段时间让Operator正常关闭。然而，kill-app对所有运算符(operator)来说就像force-kill。因此，这将立即停止应用程序。但是，运营商不会有任何机会进行清理事件。在这两种情况下，YARN都会在应用关闭后释放分配给该应用的资源。关于hadoop-ApacheApexCL

Shutdown-app app section hadoop hadoop-yarn stream-processing apache-apex bigdata

hadoop - 如何从配置单元 cli 运行配置单元脚本

我现在有配置单元脚本custsales.hql，我想从配置单元cli运行它hive(pract5)>run/user/training/hdfs_location/custsales.hql但它不执行。请指导。我知道我们可以从命令行运行它$hive-f/home/training/local_location/custsales.hql但这不是我的要求。最佳答案使用sourcepath/to/script命令。关于hadoop-如何从配置单元cli运行配置单元脚本，我们在Stack

配置单 hadoop section code hive hivecli

ubuntu - 如何在我的系统上拥有类似 Amazon EC2 的环境？

我有这个由其他人编写的hadoop项目(链接)。我有消息来源。我想在我的集群(基本上是3台ubuntu机器)上实现它。但是提到的项目在EC2平台(使用Cloudera发行版)上运行。那么，我应该在我的系统上安装什么才能使其具有运行此类项目的软件？我想到了ClouderaManager、OracleJava。最佳答案如果该项目使用cloudera发行版(而不是EMR)，您可以安装cloudera，它应该没问题。只有一个角落我可以预期有问题-如果s3被用作文件系统。如果该项目确实对s3有效，您有两种方法:a)尝试将s3替换为hdfs

何在拥有 section https 上实 ubuntu hadoop amazon-ec2 cloud cloudera