草庐IT

apache-flume

全部标签

hadoop - Apache Pig 和 Hadoop 的实现

我了解到Pig是构建在ApacheHadoop之上的。但是我无法找到Pig所具有的裸hadoop实现所缺少的额外功能。是什么导致需要像PigLatin这样的语言?Hadoop缺少什么? 最佳答案 引用自维基:Pigisahigh-levelplatformforcreatingMapReduceprogramsusedwithHadoop.ThelanguageforthisplatformiscalledPigLatin.PigLatinabstractstheprogrammingfromtheJavaMapReduceidio

hadoop - Pig Elephant-Bird 找到接口(interface) org.apache.hadoop.mapreduce.JobContext,但类是预期的

我正在使用CDH4运行Hadoop2.0,并使用OracleJava1.6r31构建了象鸟库我的pig脚本:registerelephant-bird-2.2.3.jarlog=load'loggy.log.lzo'usingcom.twitter.elephantbird.pig.store.LzoPigStorage('');limited=limitlog100;dumplimited;结果:PigStackTrace---------------ERROR2117:Unexpectederrorwhenlaunchingmapreducejob.org.apache.pig.i

hadoop - CDH4 : Version conflict: Found interface org. apache.hadoop.mapreduce.Counter,但类是预期的

我正在尝试从CDH3升级到CDH4,但从编译到运行时遇到版本冲突。我收到此错误:线程“主”java.lang.IncompatibleClassChangeError中的异常:找到接口(interface)org.apache.hadoop.mapreduce.Counter,但类是预期的从谷歌搜索看来,我的代码是针对Hadoop1.x编译的,并在Hadoop2.0上运行。我正在同一个Hadoop客户端上编译和运行该应用程序,因此它应该都是Hadoop2.0。这是我在客户端或此测试集群中的任何其他节点上运行“hadoop版本”所获得的结果:Hadoop2.0.0-cdh4.4.0颠覆文

hadoop - Flume有没有Excel源

我只是想知道是否有人遇到过需要将数据从excel导入或读取到Hadoop的场景?有没有FlumeExcel之类的源码?顺便说一句,我知道我可以将excel文件转换为csv然后处理它。真的只是想在这里进一步探索水槽源。 最佳答案 SpoolingDirectorySource可以配置为从Excel文件(或任何其他格式)读取。如文档所述,此源可以配置为EventDeserializer-实现将文件解析为事件的逻辑的类。我不认为有人已经实现了这样的反序列化器,但使用ApachePOI库似乎很容易完成任务。

hadoop - apache pig rank 运算符不适用于多个 reducer

我正在尝试使用pig的rank运算符为给定字符串分配整数。虽然当我将parallel子句设置为1时它起作用,但它没有更高的值(如200)。我需要使用多个reducer来加速处理,因为默认情况下,pig只使用一个reducer,这需要很长时间。我的查询如下:rank=按col1ASC并行200对tupl1进行排名; 最佳答案 实际上根据pig文档(https://pig.apache.org/docs/r0.11.1/perf.html#parallel):YoucanincludethePARALLELclausewithanyop

hadoop - Apache Giraph 中具有复杂值的顶点

我正在尝试将一些包含相关顶点信息的文本文件读入Giraph:每一行都是vertex_idattribute_1attribute_2.....attribute_n其中每个属性都是一个字符串。目标是创建一个顶点,其中所有这些属性都是顶点值的一部分。查找各种输入格式我找不到任何现成的东西,所以我假设我必须从VertexValueInputFormat派生我的顶点输入类(我有一个单独的边阅读器)。问题是:如何?我已经创建了一个包含String[]数组的Value类,但我如何将它交给Giraph/Hadoop?这是单行阅读器:https://giraph.apache.org/giraph-

csv - 如何使用 Flume 将一组 csv 文件从我的本地目录复制到 HDFS

如何使用Flume将一组csv文件从我的本地目录复制到HDFS?我尝试使用假脱机目录作为我的来源,但未能复制。然后我使用以下水槽配置来获得我的结果:agent1.sources=tailagent1.channels=MemoryChannel-2agent1.sinks=HDFSagent1.sources.tail.type=execagent1.sources.tail.command=tail-F/home/cloudera/runs/*agent1.sources.tail.channels=MemoryChannel-2agent1.sinks.HDFS.channel=M

hadoop - 如何摆脱 Flume 拦截器中的 NullPointerException?

我有一个为Flume代码编写的拦截器如下:publicEventintercept(Eventevent){byte[]xmlstr=event.getBody();InputStreaminstr=newByteArrayInputStream(xmlstr);//TransformerFactoryfactory=TransformerFactory.newInstance(TRANSFORMER_FACTORY_CLASS,TRANSFORMER_FACTORY_CLASS.getClass().getClassLoader());TransformerFactoryfactor

datetime - 从时间戳到现在的 Apache Pig

我正在尝试使用amabari中的apachepig分析一些数据在这种特定情况下,我遇到了问题...我有一列时间戳以这种特定格式编写14333061460001422814565122使用在线转换器,如果我输入1433306146000,输出是08/30/47389@12:06pm(UTC)但事实并非如此,事实上,如果我手动删除最后3个数字(1433306146),结果是06/03/2015@凌晨4:35(UTC)。那么,pig中有一种方法可以删除时间戳列中的最后3个数字吗?还有一个主要问题是:使用函数GetDay(datetime)如果我传递时间戳,它会起作用吗?或者有不同的方法从时间

java - 将 Apache Nutch 2.3 与 Hbase 0.94.14 和 Solr 5.2.1 集成时出错

我正在将Nutch与Hbase和Solr集成。启动Hadoop和Hbase服务后,我在NutchHome中运行如下命令sudo-Ebin/crawlurls/seed.txtTestCrawlhttp://localhost:8983/solr/2我遇到了这些错误:InjectingseedURLs/usr/local/apache-nutch-2.3.1/runtime/local/bin/nutchinjecturls/seed.txt-crawlIdTestCrawlInjectorJob:startingat2016-05-2615:41:14InjectorJob:Injec