Cluster1_草庐IT

hadoop - "Child Error"in Executing stream Job on multi node Hadoop cluster (cloudera distribution CDH3u0 Hadoop 0.20.2)

我在8节点Hadoop集群上工作，我正在尝试使用指定的配置执行一个简单的流作业。hadoopjar/usr/lib/hadoop-0.20/contrib/streaming/hadoop-streaming-0.20.2-cdh3u0.jar\-Dmapred.map.max.tacker.failures=10\-Dmared.map.max.attempts=8\-Dmapred.skip.attempts.to.start.skipping=8\-Dmapred.skip.map.max.skip.records=8\-Dmapred.skip.mode.enabled=tru

hadoop - 亚马逊电子病历 : Initializing a cluster with data

我正在使用AmazonEMR，并且能够使用CLI工具创建和运行工作流。作业运行良好。但是，当我尝试将数据从S3和名称节点的本地文件系统加载到我的EMR集群的HDFS时遇到了问题。我想从S3填充HDFS。我正在尝试使用S3DistCp工具执行此操作。我正在运行这个命令:elastic-mapreduce--jobflow$JOBFLOWID--jars3://us-east-1.elasticmapreduce/libs/s3distcp/1.0.1/s3distcp.jar--arg--src--arg's3n://my-bucket/src'--arg--dest--arg'hdfs

病历 Initializing hadoop apache java amazon-s3 hdfs emr

hadoop - 无法在 Mahout 中实例化类型 Cluster、KMean 聚类示例

您好，我试图在Mahout中运行KmeanClusteringExample，但遇到了示例代码中的错误。我在下面的代码片段中遇到错误集群cluster=newCluster(vec,i,newEuclideanDistanceMeasure());报错CannotinstantiatetheTypeCluster(这是一个接口(interface)，我的理解)。我想在我的样本数据集上运行kmeans，任何人都可以指导我吗？我在我的EClipseIDE中包含了以下Jarmahout-math-0.7-cdh4.3.0.jarhadoop-common-2.0.0-cdh4.2.1.jar

Cluster hadoop import new apache compiler-errors mahout k-means

hadoop - HbaseTestingUtility : could not start my mini-cluster

我正在尝试使用HbaseTestingUtility测试我的Hbase代码。每次我使用下面的代码片段启动我的迷你集群时，我都会遇到异常。publicvoidstartCluster(){FileworkingDirectory=newFile("./");Configurationconf=newConfiguration();System.setProperty("test.build.data",workingDirectory.getAbsolutePath());conf.set("test.build.data",newFile(workingDirectory,"zooke

HbaseTestingUtility mini-cluster hbase apache hadoop

java - 带有 --jars 的 spark-submit yarn-cluster 不起作用？

我正在尝试通过以下命令向CDHyarn集群提交一个spark作业我尝试了几种组合，但都不行......我现在所有的poijar都位于我的本地/root以及HDFS/user/root/lib中，因此我尝试了以下操作spark-submit--masteryarn-cluster--class"ReadExcelSC"./excel_sc.jar--jars/root/poi-3.12.jars,/root/poi-ooxml-3.12.jar,/root/poi-ooxml-schemas-3.12.jarspark-submit--masteryarn-cluster--class"

spark-submit yarn-cluster jars section jar java hadoop apache-spark hadoop-yarn cloudera-cdh

amazon-ec2 - 在 Amazon ec2 : multi node cluster 上运行 hadoop 作业

我必须在AmazonEC2集群上运行hadoopmapreduce作业。我尝试使用现有的AMI进行设置。但是在启动master和clients之后，“jps”没有列出任何节点。那么，即使在使用公共(public)hadoopAMI之后，我们还必须为主服务器和从服务器设置hadoop吗？master怎么知道slave的IP地址？？谁能告诉我一些好的文档。我现在已经为此苦苦思索了12个多小时。有人可以帮忙吗？谢谢。最佳答案 Matthew建议的另一种替代方法是使用Whirr。Whirr让在Amazon上部署Hadoop集群变得非常容易

amazon-ec cluster section hadoop apache amazon-ec2 mapreduce

apache-spark - 有关 yarn-cluster 模式下 Spark 驱动程序(及其 YARN 容器)的故障转移过程如何工作的资源/文档

我试图了解在以集群模式部署Yarn时，SparkDriver是否是单点故障。因此，我想在这种情况下更好地了解有关SparkDriver的YARN容器的故障转移过程的内部结构。我知道Spark驱动程序将在Yarn容器内的SparkApplicationMaster中运行。如果需要，SparkApplicationMaster将向YARNResourceManager请求资源。但是我还没有找到足够详细的文档来说明在SparkApplicationMaster(和Spark驱动程序)的YARN容器发生故障时的故障转移过程。我试图找到一些详细的资源，这些资源可以让我回答与以下场景相关的一些问题

apache-spark yarn-cluster Spark 驱动容器 hadoop hadoop-yarn alluxio

hadoop - 使用 --master yarn-cluster : issue with spark-assembly 运行 spark-submit

我在基于Kerberos的集群上运行Spark1.1.0、HDP2.1。我可以使用--masteryarn-client成功运行spark-submit，并且结果已正确写入HDFS，但是，该作业没有显示在HadoopAllApplications页面上。我想使用--masteryarn-cluster运行spark-submit但我仍然收到此错误:appDiagnostics:Applicationapplication_1417686359838_0012failed2timesduetoAMContainerforappattempt_1417686359838_0012_0000

spark spark-assembly section spark-submit hadoop apache-spark hadoop-yarn

hadoop - Hive cluster by vs order by vs sort by

据我了解；sortby仅在reducer中排序orderby在全局范围内排序，但将所有内容都推送到一个reducer中clusterby通过键散列智能地将内容分发到reducer中，并按以下方式排序所以我的问题是clusterby保证全局顺序吗？distributionby将相同的键放入相同的reducer，但是相邻的键呢？我能找到的唯一文档是here从这个例子来看，它似乎是在全局范围内订购的。但从定义来看，我觉得它并不总是这样做。最佳答案一个简短的回答:是的，CLUSTERBY保证全局排序，前提是您愿意自己加入多个输出文件。较

by cluster code reducer section hadoop hql hive

php - Elasticsearch 报错 No alive nodes found in your cluster

我开始使用Elasticsearch。我在我的服务器上成功安装了Elasticsearch(不同于应用程序服务器)。但是当我尝试从我的应用程序服务器调用Elasticsearch时，它给出了一个错误fatalerror:未捕获异常“Elasticsearch\Common\Exceptions\NoNodesAvailableException”，消息为“在您的集群中找不到事件节点”当我检查Elasticsearch状态时，它显示事件。如何从我的应用程序服务器调用Elasticsearch到我的Elasticsearch服务器。setHosts($hosts)->build();$pa

Elasticsearch cluster the strong php search server