草庐IT

CLOUDERA

全部标签

java - Hadoop 在命令行上执行时生成空输出文件

Driver.javapackagedriver;importjava.io.IOException;importmapper.NormalMapper;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapred.FileInputFormat;importorg.apache.hadoop.mapred.FileOutputFormat;importorg.apache.hadoop.mapred.JobClient;importorg.apache.ha

hadoop - 粘性位设置 hive 执行失败拒绝权限

当我试图在形成桶表的过程中触发一个sql命令时我收到以下错误,我明白因为正在执行的进程是配置单元但/tmp归mapred所有,所以它导致了问题。但我不知道如何解决我应该在哪里更改的问题。请帮助我的人Permissiondeniedbystickybitsetting:user=ras,inode=bucked_sampleFailedwithexceptionUnabletomovesourcehdfs://roax:8020/tmp/hive-training/hive_2016-02-16_03-29-10_837_2599907748984819467-1/-ext-10000t

hadoop - Apache Pig 存储分隔符

我正在使用PigLatin将别名中的值存储到HDFS中。别名在其字段之一中包含一个分号。dumpA;(Richard&John,1993)(Albert,1994)显示HDFS中数据的表格,但分号使John转到下一列。|Name|Year||--------------|------||Richard&|John||Albert|1994|Tryingtousestorelikethisisalsonotworkingasexpected:STOREAINTO'/user/hive/warehouse/test.db/names'usingPigStorage('\t')

hadoop - Cloudera-scm-server.log 在两个地方显示错误

我正在尝试运行Cloudera-Manager,但在以下屏幕截图中给出了错误并用红笔标记。谁能帮我解决这些错误?? 最佳答案 错误非常简单。ClouderaManager无法使用指定的凭据连接到数据库。您是否能够使用/etc/cloudera-scm-server/db.properties中提供的凭据手动连接? 关于hadoop-Cloudera-scm-server.log在两个地方显示错误,我们在StackOverflow上找到一个类似的问题: http

apache - Cloudera 服务监视器无法启动

在docker容器中重新启动cloudera管理服务时出现以下错误:quickstart:latest,我在错误显示服务监视器未运行后重新启动:Mar15,8:45:43.760AMERRORcom.cloudera.cmon.firehose.MainFailedtostartFirehosejava.io.IOException:UnknownversionoftheversionedLevelDBstore.atcom.cloudera.cmon.tstore.leveldb.LDBUtils.openVersionedDB(LDBUtils.java:253)atcom.clo

hadoop - 使用cloudera quickstart vm 在配置单元中创建表被卡住了

我正在尝试使用clouderaquickstartvm的配置单元CLI在配置单元中创建一个表。该命令被卡住,甚至在很长一段时间后也没有发生任何事情。我错过了什么吗?如果有人可以为此提供帮助,我们将不胜感激。[cloudera@quickstart~]$配置单元使用jar:file:/usr/jars/hive-common-1.1.0-cdh5.5.0.jar!/hive-log4j.properties中的配置初始化日志记录警告:HiveCLI已弃用,建议迁移到Beeline。hive>创建表test_dept(department_idint,department_namestri

hadoop - Pig 中的包和元组模式

我试图为我尝试使用JsonLoader加载的一些数据指定模式,我要上传的数据的格式为Features:["Speedy","New","Automatic",..]对于每条记录,特征的数量不是固定的,它可以不同。我在模式中将其表示为:Features:bag{a:tuple(t:chararray)}但是它不起作用。有人可以用正确的语法帮助我并指出我错在哪里吗? 最佳答案 字段名称规范是不必要的,因为您有没有任何字段名称的简单数组。试试这个:a=load'a.json'usingJsonLoader('value:int,featu

r - Spark 错误 : No rows dropped by 'na.omit' call

当我尝试将ml_decision_tree或ml_logistic_regresion与Sparklyr包一起使用时,出现以下错误。我在cloudera集群上使用spark2.1.0。>Norowsdroppedby'na.omit'call.Errorin>stop(simpleError(sprintf(fmt,...),if(call.)>sys.call(sys.parent()))):baderrormessage下面是我运行的代码片段:at%ft_string_indexer(input.col=col,output.col=paste0(col,"_in"))%>%ft_

hadoop - 无法删除 HDFS 损坏的文件

我无法删除我的HDFS中存在的损坏文件。Namenode已进入安全模式。区block总数为980,其中978已报告。当我运行以下命令时,sudo-uhdfshdfsdfsadmin-report生成的报告是,SafemodeisONConfiguredCapacity:58531520512(54.51GB)PresentCapacity:35774078976(33.32GB)DFSRemaining:32374509568(30.15GB)DFSUsed:3399569408(3.17GB)DFSUsed%:9.50%Underreplicatedblocks:0Blockswit

java - hadoop 当前租户正在尝试重新创建文件

我的MapReduce作业按日期处理数据,需要将输出写入特定的文件夹结构。目前的期望是生成以下结构的输出:天=>天/月/文件reducer类:publicstaticclassReducerclassextendsReducer{DateFormatdateFormat=newSimpleDateFormat("yyyy-MM-ddHH:mm:ss");privateMultipleOutputsmultipleOutputs;publicvoidreduce(Textrkey,Iterablervalue,Contextcontext)throwsIOException,Interr