apache-commons-logging

hadoop - 在 Apache pig 中读取压缩 (.xz) 文件

我正在尝试读取使用hadoop-xz压缩的.xz文件使用pig脚本的编解码器。我试过的示例代码是，REGISTERhadoop-xz-1.4.jarSEToutput.compression.enabledtrue;SEToutput.compression.codecio.sensesecure.hadoop.xz.XZCodec;msg=LOAD'pigtest/newXZ.xz'USINGPigStorage();STOREmsgINTO'pigtest/output'USINGPigStorage();DUMPmsg;结果仍然是压缩格式。我做错了吗，还是我必须在pig里面使用X

apache - 从 java 连接到 Hbase 时出错

我正在使用HBase版本1.0.1，同时我从java连接到hbase，我得到的错误是15/05/2512:12:57INFOzookeeper.ZooKeeper:Initiatingclientconnection,connectString=localhost:2181sessionTimeout=90000watcher=hconnection-0xc0663d0x0,quorum=localhost:2181,baseZNode=/hbaseExceptioninthread"main"java.io.IOException:java.lang.reflect.Invocati

时出 apache java ConnectionManager hadoop mapreduce hbase

java - 使用 hadoop 的 Apache Tez 配置

这是我所做的简而言之:第1步:我已经在笔记本电脑(单节点)上成功配置了hadoop2.6并运行了一个示例mapreduce作业。第2步:我克隆了tez存储库并成功构建了0.8.0版本并将jar文件复制到HDFS并导出了所需的变量。我还在mapred-site.xml中将变量mapreduce.framework.name的值更改为yarn-tez。但是当我想运行一个tezorderedwordcount作业时，我得到了这个错误:15/07/0418:45:03INFOipc.Client:Retryingconnecttoserver:hostname/hostIP:57339.Alr

hadoop Apache section strong code java hadoop-yarn apache-tez

java - 每次调用 logger.info/debug/warn() 调用时，只用 log4j 记录一次

我有一个特定的日志消息可能会被打印很多次的场景(可能是数百万次)。例如，如果我们记录(使用logger.warn()方法)每条缺少字段的记录，我们最终可能会记录很多输入文件有很多记录的情况缺少字段(例如，HDFS上的大文件)。这很快就会填满磁盘空间。为避免这种情况，我尝试为每(例如)1000条缺少字段的记录记录一次。我可以在log4j包之外实现所有这些逻辑，但我想知道是否有更简洁的方法来执行此操作。理想情况下，所有这些逻辑都将进入log4j代码。这似乎是一个经常遇到的问题，但几乎没有关于此的任何信息。有什么想法吗？最佳答案 Log

用时 logger section 开箱 DuplicateMessageFilter java hadoop logging log4j

hadoop - Oozie 作业在运行 hue 时由于 "not org.apache.hadoop.mapred.Mapper"而失败

我正在尝试通过oozie作业运行wordcount程序。当我像hadoopjarwordcoutjar/data.txt/out一样手动运行wordcoutjar时。它运行良好并给我输出。这是我的wordcount程序的映射器代码的详细信息。publicclassMapperWordcountextendsMapper{privatefinalstaticIntWritableone=newIntWritable(1);privateTextword=newText();publicvoidmap(LongWritablekey,Textvalue,Contextcontext)thr

hadoop amp apache java mapreduce oozie hue oozie-coordinator

hadoop - Apache Pig 存储分隔符

我正在使用PigLatin将别名中的值存储到HDFS中。别名在其字段之一中包含一个分号。dumpA;(Richard&John,1993)(Albert,1994)显示HDFS中数据的表格，但分号使John转到下一列。|Name|Year||--------------|------||Richard&|John||Albert|1994|Tryingtousestorelikethisisalsonotworkingasexpected:STOREAINTO'/user/hive/warehouse/test.db/names'usingPigStorage('\t')

hadoop Apache code section 分号 apache-pig cloudera

hadoop - Cloudera-scm-server.log 在两个地方显示错误

我正在尝试运行Cloudera-Manager，但在以下屏幕截图中给出了错误并用红笔标记。谁能帮我解决这些错误？？最佳答案错误非常简单。ClouderaManager无法使用指定的凭据连接到数据库。您是否能够使用/etc/cloudera-scm-server/db.properties中提供的凭据手动连接？关于hadoop-Cloudera-scm-server.log在两个地方显示错误，我们在StackOverflow上找到一个类似的问题： http

Cloudera-scm-server Cloudera section image 凭据 hadoop cloudera-manager

hadoop - 如何使用 apache pig 构建非结构化数据

我有一个包含以下行的文件:3124,"hello...",ku43125,"hello,hi",ab2我想加载包含三列的文件。我使用了PigStorage(',')但它也将"hello,hi"一分为二。我想要它在一个字段下。我怎样才能做到这一点？最佳答案您可以编写自己的自定义UDF或使用piggybank.jar中的CSVLoader--Getpiggybank.jarthatiscompatiblewithyourpigversionandregisteritinyourpigscriptbypointingtotheloca

结构化 hadoop section code piggybank apache-pig

java - 将 Apache Pig 连接到 Hadoop 集群

我正在使用ApachePig对Hadoop集群进行一些数据分析工作。我在hadoop集群中部署了一个集合节点和32个从节点。但是，当我使用Pig以mapreduce模式运行脚本并连接到该Hadoop集群时，它总是只启动一个map和一个reduce。我如何设置Pig或Hadoop以使用所有32个从站？作业状态如下图所示:JobStats(timeinseconds):JobIdMapsReducesMaxMapTimeMinMapTimeAvgMapTimeMedianMapTimeMaxReduceTimeMinReduceTimeAvgReduceTimeMedianReduceti

Apache Hadoop 1457865367374 ordered section java apache-pig

apache - Cloudera 服务监视器无法启动

在docker容器中重新启动cloudera管理服务时出现以下错误:quickstart:latest，我在错误显示服务监视器未运行后重新启动:Mar15,8:45:43.760AMERRORcom.cloudera.cmon.firehose.MainFailedtostartFirehosejava.io.IOException:UnknownversionoftheversionedLevelDBstore.atcom.cloudera.cmon.tstore.leveldb.LDBUtils.openVersionedDB(LDBUtils.java:253)atcom.clo

Cloudera apache LDBPartitionMetadataStore section hadoop cloudera-manager

210 211 212213214 215 216