草庐IT

apache-karaf

全部标签

hadoop - Apache pig -错误 6007 : Unable to check name

我正在尝试运行Pig教程(http://pig.apache.org/docs/r0.11.1/start.html#pig-scripts)中的基本脚本,如下所示:/*myscript.pigMyscriptissimple.ItincludesthreePigLatinstatements.*/A=LOAD'student'USINGPigStorage()AS(name:chararray,age:int,gpa:float);--loadingdataB=FOREACHAGENERATEname;--transformingdataDUMPB;--retrievingresul

hadoop - Apache Pig - 如何获取多个包之间匹配元素的数量?

我是ApachePig的新用户,我有一个问题需要解决。我正在尝试使用apachepig制作一个小型搜索引擎。这个想法很简单:我有一个文件,它是多个文档的串联(每行一个文档)。这是一个包含三个文档的示例:1,word1word4word2word12,word2word6word1word5word33,word1word3word4word5然后,我使用以下代码行为每个文档创建一个词袋:docs=LOAD'$documents'USINGPigStorage(',')AS(id:int,line:chararray);B=FOREACHdocsGENERATEline;C=FOREAC

hadoop - Apache Pig - 是否可以序列化变量?

让我们以wordCount为例:input_lines=LOAD'/tmp/my-copy-of-all-pages-on-internet'AS(line:chararray);--Extractwordsfromeachlineandputthemintoapigbag--datatype,thenflattenthebagtogetonewordoneachrowbag_words=FOREACHinput_linesGENERATEFLATTEN(TOKENIZE(line))ASword;是否可以序列化“bag_words”变量,这样我们就不必在每次执行脚本时都重建整个包?谢

apache - 用于更新动态属性的工具甚至无需重新启动应用程序/服务器

在我的项目中,我正在尝试进行设置,我可以在其中更新服务器/应用程序中的动态属性,而无需重新启动它。我们面临这样的问题,每当我们必须更新或更改一些本质上是动态的属性时,每次我们都必须重新启动服务器/应用程序,这会导致该时间戳的服务器不可用。我已经找到了一个工具Archaius-ZooKeeper来设置它。https://github.com/Netflix/archaius/我们正在尝试为我们使用war文件在服务器上部署的JBoss服务器执行此操作。请建议是否有任何其他方法或工具或技术可用于设置它。提前致谢。 最佳答案 你可以考虑jR

apache - 如何在 Windows 8 上配置 hadoop 2.3.0?

我尝试在Windows上配置hadoop2.3.0,但它给了我错误:无法找到或加载主类org.apache.hadoop.hdfs.tools.GetConf还有许多其他错误,如“winutils.exe”、“hadoop.dll困惑”和“加载主类”错误。请帮我在Windows8机器上配置Hadoop。我已经安装了JDK1.7cygwin64 最佳答案 如果我们直接获取ApacheHadoop2.3版本的二进制分发版并尝试在MicrosoftWindows上运行它,那么我们会遇到ERRORutil.Shell:Failedtoloc

hadoop - 加入 Pig Apache 后难以创建包

我需要对我的一部分数据进行反规范化。我有一些数据donnees_porteur(JSON格式),我想在其中集成donnees_enfant(CSV格式)donnees_enfant=LOAD'/user/cloudera/enfn.csv'USINGPigStorage(';')AS(NUM_CART_enf,NUM_ENFN,ANNEES_NAIS);donnees_porteur=LOAD'/user/cloudera/part*'USINGJsonLoader();编辑:donnees_porteur:{Id:bytearray,Infos:(cod_civl:bytearray

java - 将 Apache Spark 添加到 Eclipse Maven 项目时出现问题

我正在尝试将ApacheSparkMLlib添加为Eclipse中Maven项目的依赖项。我有Maven插件,所以添加依赖项通常就像输入地址一样简单(甚至不必触摸pom.xml)。当我尝试添加MLlib时,出现错误:“无法读取所需库的存档(spark-corejar的位置)或者不是有效的zip文件”所以我也去添加那个jar作为依赖项,但是错误继续发生,只是不同的jar(接下来是hadoop,然后是snappy-java等)需要添加越来越多的依赖项。最终,我似乎已经添加了所有必需的依赖项,但错误只是循环回到hadoop中:“无法读取所需库的存档(hadoopjar的位置)......”当

hadoop - Apache Flume : cannot commit transaction. 达到堆空间限制

我正在尝试使用Flume将一些数据流式传输到HDFS,并将单个代理配置为具有netcat源、内存channel和HDFS接收器。配置如下:a1.sources=src1a1.channels=ch1a1.sinks=snk1#SOURCESCONFIGURATIONa1.sources.src1.type=netcata1.sources.src1.bind=0.0.0.0a1.sources.src1.port=99999a1.sources.src1.ack-every-event=false#SOURCE->CHANNELa1.sources.src1.channels=ch1#

hadoop - Apache Hive 字符串拆分

这个表只包含一个字符串列。我想使用“,”拆分每一行,然后使用ApacheHive将它们放在一个单独的表中。我应该怎么做? 最佳答案 一个非常简单的方法是:createtabledatabase.new_tableasselectsplit(col_value,',')[0]ascolumn_1,split(col_value,',')[1]ascolumn_2,split(col_value,',')[2]ascolumn_3--andsonotillyournthcolumn,split(col_value,',')[10]asc

java - Apache pig UnsatisfiedLinkError

当我尝试运行一个涉及加入一个活泼的压缩avro文件内容的pig作业时,我得到了一个堆栈跟踪。org.apache.hadoop.mapred.YarnChild:运行child时出错:java.lang.UnsatisfiedLinkErrororg.xerial.snappy.SnappyNative.uncompressedLength奇怪的是,在grunt中逐行运行代码工作正常,我什至可以将avro文件的内容存储到其他东西中就好了。Thisissueseemstoberelevent,butitreferstoSparkandnotpig 最佳答案