草庐IT

cdh_admin_distcp_data_cluster_mig

全部标签

logging - cdh4 hadoop 中作业的详细日志在哪里?

我只是在hdfs中找到jobhistory/home/mps/cdh/users/history/done_intermediate/mps/job_1405497023620_0009-1405505656182-mps-simjoin%2D1.0.jar-1405505683781-0-0-FAILED-default.jhist但是这个工作历史信息远非像这样的详细信息:{"type":"TASK_FAILED","event":{"org.apache.hadoop.mapreduce.jobhistory.TaskFailed":{"taskid":"task_14054970

hadoop - 为什么匿名 FTP 到 HDFS DistCp 不起作用?

我尝试使用以下命令将FTP数据复制到HDFS,hadoopdistcpftp://ftp.ncdc.noaa.gov/pub/data/noaa/1901/data/noaa/1901/这是我收到的错误15/03/0411:29:13INFOtools.DistCp:InputOptions:DistCpOptions{atomicCommit=false,syncFolder=false,deleteMissing=false,ignoreFailures=false,maxMaps=20,sslConfigurationFile='null',copyStrategy='unifo

hadoop - 动态加载文件时的 Spark Streaming 和 Data Locality

我正在运行一个spark流应用程序,它从Kafka接收HDFS上的文件路径,应该打开这些文件并对它们执行某种计算。问题是我无法享受数据局部性的好处,因为执行程序可能在任何节点上运行,而打开文件的执行程序不一定是持有文件的执行程序。有没有一种方法可以按照我介绍的方式动态打开文件,同时保持数据局部性?谢谢,丹尼尔 最佳答案 我不确定你打开文件的意思,如果你能分享一些代码会很有帮助,但如果你使用的是sc.textFile,那是一个RDD转换。转换被集群管理器安排为任务,因此不一定会从运行DStream转换的执行器节点执行。

hadoop - 在 HDP (2.2) 平台上使用 Yarn-Client 上的 PySpark 将 Hbase 表读取到 Spark(1.2.0.2.2.0.0-82) RDD 时出现异常 "unread block data"

在HDP(2.2)上使用Yarn-Client(2.6.0)上的PySpark将Hbase(0.98.4.2.2.0.0)表读取到Spark(1.2.0.2.2.0.0-82)RDD时出现奇怪的异常)植物形态:2015-04-1419:05:11,295WARN[task-result-getter-0]scheduler.TaskSetManager(Logging.scala:logWarning(71))-Losttask0.0instage0.0(TID0,hadoop-node05.mathartsys.com):java.lang.IllegalStateException

hadoop - 命令 'oozie admin sharedliblist ...' 的空共享库

我已经按照此处的说明安装了oozie并安装了共享库http://mockus.in/forum/viewtopic.php?t=48当我运行伴随安装的示例MapReduceWorkflow时,工作流失败了。在webconsole日志中,我可以看到此错误消息2015-05-2418:09:32,664WARNActionStartXCommand:544-SERVER[mountain]USER[mountain]GROUP[-]TOKEN[]APP[map-reduce-wf]JOB[0000000-150524175852032-oozie-moun-W]ACTION[0000000

hadoop - 在 Hadoop 2.7.2(CentOS 7) Cluster 中,Datanode 启动但没有连接到 namenode

我安装了一个三节点hadoop集群。master和slave节点单独启动,但datanode没有显示在namenodewebUI中。datanode的日志文件显示以下错误:2016-06-1821:23:53,980INFOorg.apache.hadoop.ipc.Client:Retryingconnecttoserver:namenode/192.168.1.100:9000.Alreadytried0time(s);retrypolicyisRetryUpToMaximumCountWithFixedSleep(maxRetries=10,sleepTime=1000MILLI

hadoop - Data locality 概念是否也适用于 Reducers?

我的理解:数据局部性的概念仅适用于Mapper,因为它处理输入文件。Reducers在处理时是否也会使用Datalocality概念?数据局部性:数据局部性是指通过对数据进行计算而不是从其位置请求数据来处理数据所在的位置。在计算数据时,Mappers和Reducers会工作。映射器在计算数据时使用数据局部性。Reducers将输入作为Mappers的输出。假设Mappers输出(中间数据)存储在不同的数据节点。Reducers在计算时是否使用数据局部性? 最佳答案 不,数据局部性概念仅适用于MAPPERS。Reducer是根据par

hadoop - pig : get data from hive table and add partition as column

我有一个分区的Hive表,我想将其加载到Pig脚本中,并且还想将分区添加为列。我该怎么做?Hive中的表定义:CREATEEXTERNALTABLEIFNOTEXISTStransactions(column1string,column2string)PARTITIONEDBY(datestampstring)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'LOCATION'/path';pig脚本:%defaultINPUT_PATH'/path'A=LOAD'$INPUT_PATH'USINGPigStorage('|')AS(column1:cha

hadoop - 我可以将 Hadoop 2.0.0-cdh4.5.0 与 Cassandra 2.0.5 一起使用吗?

我正在尝试将Hadoop2.0(特别是Cloudera4.5发行版)与Cassandra2.0.4数据库一起使用。在解决了一系列问题之后(例如确保Hadoop使用1.7jdk运行)我陷入了这个错误:Exceptioninthread"main"java.lang.IncompatibleClassChangeError:Foundinterfaceorg.apache.hadoop.mapreduce.JobContext,butclasswasexpectedatorg.apache.cassandra.hadoop.AbstractColumnFamilyInputFormat.g

hadoop - 安装 Spark Cluster,Hive 的问题

我正在尝试启动Spark/Shark集群,但一直遇到同样的问题。我已按照https://github.com/amplab/shark/wiki/Running-Shark-on-a-Cluster上的说明进行操作并按照说明处理Hive。我认为SharkDriver正在使用另一个版本的Hadoopjar,但不确定原因。这是详细信息,任何帮助都会很棒。星火/鲨鱼0.9.0ApacheHadoop2.3.0Amplabshive0.11斯卡拉2.10.3Java7我已经安装了所有东西,但我收到了一些弃用警告,然后是一个异常:14/03/1411:24:47信息Configuration.d