vm-cdh-cluster

hadoop - Spark yarn-cluster 模式 - 读取通过 --files 传递的文件

我正在使用yarn-clustermaster运行我的spark应用程序。应用程序有什么作用？外部服务根据对RESTService的HTTP请求生成一个jsonFileSpark需要读取这个文件并在解析完json之后做一些工作想到的最简单的解决方案是使用--files加载该文件。在yarn-cluster模式下读取文件意味着它必须在hdfs上可用(如果我是对的？)并且我的文件正在被复制到这样的路径:/hadoop_user_path/.sparkStaging/spark_applicationId/myFile.json我当然可以在哪里阅读它，但是我找不到从任何配置/SparkEnv

yarn-cluster 传递 code spark section hadoop apache-spark hdfs hadoop-yarn

hadoop - Hive 中 Cluster By 和 CLUSTERED BY 的区别？

我想知道Hive中ClusterBy和CLUSTEREDBY的主要区别是什么。ClusterBy用于对表进行分桶。并且会用到Hash函数。CLUSTEREDBY用于在reducer中按值排序。还有什么区别吗。请告诉我谢谢文卡特巴拉。最佳答案 “聚类依据”仅将您的键分布到不同的桶中，“聚类依据”确保N个缩减器中的每一个都获得不重叠的范围，然后在缩减器中按这些范围排序。主要区别在于排序。关于hadoop-Hive中ClusterBy和CLUSTEREDBY的区别？，我们在StackOve

CLUSTERED Cluster section 缩减 hadoop hive

hadoop - 如何加载csv文件数据到CDH？

我有多个csv文件，我想将它们导入CDH表。我想知道是否有类似sqoop的工具可以从文件中导入数据。有什么方法或工具可以自动完成吗？最佳答案您可以使用HueWebUI。使用FileBrowser菜单将文件上传到hdfs。之后你可以使用数据浏览器/Metastore表创建新模式/使用上传的文件创建新表。关于hadoop-如何加载csv文件数据到CDH？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co

hadoop csv section stackoverflow questions cloudera cloudera-cdh bigdata

hadoop - 现有 CDH 5.5.2 集群上的 Kafka 配置

我正在我现有的CDH5.5.2集群上安装Kafka-2.0，这是我遵循的过程从CM添加服务选择Kafka(在此之前我在所有节点上下载并分发并激活了kafkaparcel)为KafkaBroker选择了1个节点，为KafkaMirrorMaker选择了4个节点然后我使用MirrorMaker节点之一更新了我的目标代理列表(bootstrap.servers)属性以及具有相同节点的源代理列表(source.bootstrap.servers)我得到以下错误(日志文件)FatalerrorduringKafkaServerStartablestartup.Preparetoshutdownj

hadoop Kafka scala LogCleaner apache-kafka hadoop2 rhel cloudera-cdh

hadoop - 无法初始化 Cluster Hadoop-2.7.1 和 YARN

对于示例中的简单程序字数统计，即使所有作业都在运行，提交作业也会失败。hadoopjarhadoop-mapreduce-examples-2.7.1.jarwordcounthdfs://localhost:9000/inputhdfs://localhost:9000/outputJPS31265SecondaryNameNode31064DataNode30929NameNode31478ResourceManager32354Jps错误java.io.IOException:CannotinitializeCluster.Pleasecheckyourconfiguration

Cluster hadoop gt lt hadoop-yarn

python - 在 CDH3 上编写 HBase MapReduce 的最简单的非 Java 方法？

我已经为此工作了很长时间，我感到很疲惫；我希望来自SO社区的[显而易见的？]见解可能会让我的宠物项目重新开始，这样我就可以停止踢自己了。我正在使用ClouderaCDH3、HBase.89和Hadoop.20。我有一个Python/Django应用程序，它使用Thrift接口(interface)将数据写入单个HBase表，效果很好。现在我想将它映射/减少到更多的HBase表中。这里明显的答案是Dumbo或ApachePIG，但是对于Pig，我的版本尚不支持HBaseStorage适配器(Pig能够加载类和定义，但在“映射”步骤卡住，提示“输入拆分”；Pig邮件列表建议这在Pig0.8

MapReduce 编写 section HBase Pig python hadoop

hadoop - fs.http.address ip 更改后，cloudera vm hadoop Hive 失败

我正在使用ClouderaVM(cdh3u2)作为模拟的分布式文件系统。为了从Web服务器执行文件创建和写入，我更改了fs.http.address属性以指向VMIP。此功能工作正常。当HIVE执行类似mapreduce的作业时，问题就出现了SELECTCOUNT(*)FROMtmp2;我得到的信息是:hive>selectcount(*)fromtmp2;TotalMapReducejobs=1LaunchingJob1outof1Numberofreducetasksdeterminedatcompiletime:1Inordertochangetheaverageloadfora

hadoop cloudera section reduce 201111301538 mapreduce hive

hadoop - 加载数据时 HDInsight VM 初始化错误

我正在尝试运行thisgettingstartedsample用于将数据加载到我的单节点HDInsighthadoop集群中。当我运行示例时，出现如下所示的错误:c:\Hadoop\GettingStarted>powershell-ExecutionPolicyunrestricted-Fimportdata.ps1w3cAttemptingtoimportscenariow3cPath----C:\Hadoop\GettingStarted\w3cErroroccurredduringinitializationofVMjava.nio.charset.IllegalCharset

HDInsight hadoop java section Charset jvm azure-hdinsight

hadoop - java.lang.IllegalStateException : No clusters found. 检查你的 -c 路径

我在命令行使用以下命令使用Mahoutkmeans算法对数据进行聚类mahoutkmeans-i/vect_out/tfidf-vectors/-c/out_canopy-o/out_kmeans-dmorg.apache.mahout.common.distance.SquaredEuclideanDistanceMeasure-cd1.0-x20-cl其中/out_canopy是包含使用Mahoutcanopy集群创建的集群的目录，其中包含一个clusters-0目录，该目录本身包含一个名为_logs的目录和一个文件命名为part-r-00000但是一直报如下错误java.lang

IllegalStateException clusters code section out_canopy hadoop machine-learning cluster-computing cluster-analysis mahout

hadoop - Cloudera CDH 上的 Impala "Could not create logging file: Permission denied"

我在CDH4.2.0-1.cdh4.2.0.p0.10集群上的ClouderaManager4.5中通过包裹安装了Impala。当我尝试启动服务时，它在所有节点上都失败并显示此消息perl-pi-e's#{{CMF_CONF_DIR}}#/run/cloudera-scm-agent/process/800-impala-IMPALAD#g'/run/cloudera-scm-agent/process/800-impala-IMPALAD/impala-conf/impalad_flags'['impalad=impalad']'exec/opt/cloudera/parcels/I

Permission amp cloudera impala section hadoop

70 71 727374 75 76