集群NoSQL_草庐IT

hadoop - 将数据从网关节点复制到同一网络中的不同集群

有没有办法在同一网络中将数据从集群1中的网关节点直接复制到集群2的HDFS。目前我正在对集群2的网关节点执行scp并将数据上传到HDFS。谢谢，最佳答案你可以尝试这样的事情:hadoopfs-put[local_file]hdfs://[namenode2]:[namenode2_port]/[path]假设:[local_file]为集群1中网关节点的文件[namenode2]是集群2的namenode[namenode2_port]是集群2的namenode端口[path]是文件在hdfs中的路径

hadoop 将 section namenode namenode2 hdfs scp distcp

hadoop - 集群配置和hdfs

我正在尝试按照本教程配置我的集群-https://developer.yahoo.com/hadoop/tutorial/module2.htmlfs.default.namehdfs://192.168.71.128:9000dfs.data.dir/home/hadoop-user/hdfs/datadfs.name.dir/home/hadoop-user/hdfs/name我还使用以下命令将本地文件复制到/user/prema/hadoop-user@hadoop-desk:~/hadoop$bin/hadoopdfs-put/home/hadoop-user/googlebo

hadoop hdfs user hadoop-user

java - hadoop 集群仅使用主节点或所有节点

我已经创建了一个4节点的hadoop集群。我启动所有数据节点、名称节点资源管理器等。为了了解我的所有节点是否正常工作，我尝试了以下过程:第1步。当所有节点都处于Activity状态时，我运行我的程序第2步。当只有master处于Activity状态时，我运行我的程序。两种情况下的完成时间几乎相同。所以，我想知道是否有任何其他方法可以让我知道在运行程序时实际使用了多少个节点。最佳答案在聊天中讨论。问题是由不正确的Hadoop安装引起的，在这两种情况下，作业都是使用LocalJobRunner在本地启动的。作为建议:使用Ambari

有节 hadoop strong section java mapreduce cluster-computing

hadoop - 为什么增加集群数量可以加快 Hadoop MapReduce 中的查询速度？

我刚开始学Hadoop，在官方的教程里，有提到doubleamountofclusters能够使查询双倍大小的数据与原始数据一样快。另一方面，传统的RDBM仍然花费两倍的时间在查询结果上。我无法掌握集群与处理数据之间的关系。希望有人能给我一些想法。最佳答案这是分布式计算的基本思想。如果您有一台服务器处理大小为X的数据，它将花费Y时间。如果您有2X数据，则同一台服务器将(大致)花费2Y时间。但是如果您有10台服务器并行工作(以分布式方式)并且它们都拥有完整的数据(X)，那么它们将花费Y/10的时间。如果在一台服务器上拥有10倍以上

MapReduce hadoop section 的 cluster-computing querying

python - 通过 Python 连接到 Cloudera 集群

我有一个已启动并正在运行的Cloudera集群。我目前正在编写一个Python应用程序，它查询API以获得响应。我正在将此响应写入应用程序中的文本文件。但是，我还想在应用程序中以编程方式将此文本文件导出到cloudera集群。这可能吗？能否请您指出一些引用资料或示例代码来实现此目的？或者只是您对此的想法和建议。谢谢! 最佳答案您可能希望查看Spotify的Snakebite项目，它为您提供了一种直接通过Python使用HDFS的方法。http://spotify.github.io/snakebite/fromsnakebite.

Cloudera python section snakebite hadoop export hdfs

hadoop - 如何在 Cloudera 中配置 Yarn 以在所有集群节点上运行 Spark 执行程序？

我们有一个Cloudera集群，其中包含3个数据节点和相应的yarn节点管理器。然而，当我们以yarn-client模式向集群提交一个spark脚本时，其中一个节点被处理为applicationmaster，只有另外两个节点被处理为Sparkexecutor。这显示在下面的spark日志中，其中只有节点2和节点3被设置为执行者:Usingpropertiesfile:/opt/cloudera/parcels/CDH-5.3.0-1.cdh5.3.0.p0.30/lib/spark/conf/spark-defaults.confAddingdefaultproperty:spark.

何在 Cloudera 15 INFO 20 hadoop apache-spark hadoop-yarn

hadoop - 需要帮助在 aws 中设置 hadoop 集群

我想在aws中设置一个总容量约为100T的hadoop集群。如果我按照http://aws.amazon.com/ec2/instance-types/选择aws实例，我没有得到理想的数据节点配置，我想为工作节点使用本地磁盘(SSD/NON-SSD)。例如如果我为数据节点选择cc2.8xlarge实例，那么对于100T，我将不得不设置30个cc2.8xlarge实例，这将非常昂贵。您能否建议我应该如何在aws(EC2)中配置我的集群，使其具有最少的数据节点数，或者aws中的hadoop是否有任何标准配置？最佳答案听起来您很想考虑

中设 hadoop section aws amazon-web-services amazon-ec2 amazon-s3

hadoop - 如何在具有单节点(CentOS)Yarn 集群的单机(CentOS)上安装 spark

作为一个hadoop/Spark初学者，我已经按照这个website中的教程进行操作。并成功地在我的单机(CentOS6)上部署了一个hadoop框架。现在我想在同一台机器上也安装Spark1.2，让它与我机器上的单节点Yarn集群一起工作，这意味着在我的单机上对存储在hdfs上的文件执行SparkSQL并将结果输出到hdfs。对于所需的其余步骤，我没有在网上找到针对此场景的好教程。我目前所做的是:(1)从Scala官网下载并安装了scala2.9.3。“scala-version”命令有效!(2)从ApacheSpark网站下载Spark1.2.1(为Hadoop2.4或更高版本预构

CentOS 何在 spark section hadoop apache-spark

performance - 优化 hadoop 集群上的 nutch 性能

我正在尝试优化抓取网站的nutch性能。现在我在小型hadoop集群上测试性能，只有两个节点32gbRAM，cpuIntelXeonE31245v24c/8t。我的nutch配置http://pastebin.com/bBRHpFuq所以，问题是:获取工作不是最优的。一些reduce任务有4k页面用于获取，一些1kk页面。例如见截图https://docs.google.com/file/d/0B98dgNxOqKMvT1doOVVPUU1PNXM/edit有些reduce任务在10分钟内完成，但一个任务工作了11个小时并且仍在继续工作，所以当我有24个reduce任务但只工作一个时，

performance hadoop section noreferrer com nutch cloudera hadoop-yarn

hadoop - Hadoop 集群中的主节点崩溃

我正在使用10节点集群，主节点遇到硬件崩溃，导致所有服务包括ambari服务器都无法访问。我无法访问HDFS，也无法登录到ambari。据说当Masterndoe宕机时，SNAMEnode将接管，但在这种情况下，当master无法访问时，似乎没有任何服务在运行。整个集群都宕机了，如何进一步挽救集群？或者这表明我必须重新安装所有东西？最佳答案当namenode关闭时，辅助namenode将不再担任namenode的角色。辅助名称节点用于执行检查点。引用https://hadoop.apache.org/docs/r2.4.1/ha

hadoop section https cluster-computing