草庐IT

PIG_HOME

全部标签

java - $HADOOP_COMMON_HOME 和 $HADOOP_HDFS_HOME 是同一个值吗?

我知道$HADOOP_COMMON_HOME应该设置为Hadoop目录的根路径,但是$HADOOP_HDFS_HOME的值是多少?同一个?它的值应该是多少? 最佳答案 他们不一样..hadoop发行版中有三个主要的子项目:1)hadoop-common-mapreduce和hdfs使用的通用功能,如IPC..2)hadoop-mapred-mapreduce框架jar3)hadoop-hdfs-hdfs分布式文件系统jar它们每个都在不同的目录中。所以在你提取那些子项目之后,设置$HADOOP_COMMON_HOME设置为hadoo

hadoop - 在 PIG 中为 UDF 添加依赖 jar

我有一个UDF,用于对记录进行自定义处理。在eval函数中,我使用第三方jar进行处理。我看到了作业jar文件,但它不包含此依赖项。有什么办法可以在作业jar中包含依赖jar吗?(为了测试,我在本地模式下运行集群)。或者我可以使用分布式缓存使依赖的jar可用于UDF吗?我试过在pig中注册依赖的jar。对于第一个注册的jar(所有udf都捆绑在这个jar中)我没有遇到问题。但是对于第二个jar,当UDF尝试从中访问类时,我遇到了问题。REGISTER'/home/user/pig/udfrepository/projectUDF.jar'REGISTER'/home/user/thri

hadoop - 如何使用Pig在hbase中加载数据

我想通过pig加载数据并将其处理到HBase中。我已将文本文件加载到HDFS。然后我对pig使用了以下命令。A=LOAD'/tmp/hive-Vijay.Shinde/file.txt'USINGPigStorage(',')as(strdata1:chararray,strdata2:int);然后我用了,STOREAINTO'mydata'USINGorg.apache.pig.backend.hadoop.hbase.HBaseStorage('mycf:strdata2');mydata是HBase中的表。它给出错误:未处理的内部错误 最佳答案

hadoop - 使用 pig 更新 Hbase 表

我知道可以使用Put更新HBase中一行的不同列。我正在使用Pig+HBase和HBaseStorage。我能够在HBase中存储和加载,而不会出现表中不存在键的Pig表达式的任何问题。但是,当我开始尝试使用存在键的HBaseStorage()更新表时,作业失败了。有人可以澄清HBaseStorage是否只能用于存储新记录或更新现有记录中的列。提前致谢。 最佳答案 实际上,您可以使用HBaseStorage来更新现有记录中的列。如果您向我们提供错误消息以获取更多详细信息。 关于hadoo

hadoop - pig 分层抽样?

有没有人知道如何对pig进行分层抽样?(wikipedia)目前,我会做类似的事情:relation2=SAMPLErelation10.05;但我的数据集包含一个出现几次的标签列,其中一些很少见(例如0.5%),我希望我的随机下采样不要忘记所有这些。非常感谢。 最佳答案 您可以通过使用RANDOM()实现您自己的采样方法,然后过滤掉值低于0.95的行。因此,如果您想对此抽样进行分层,您可以计算行中有多少部分包含特定值,然后相应地缩放随机值,以便以不同的速率对不同的值进行抽样。 关于ha

hadoop - 如何使用 Pig 将数据存储在 HDFS 上的多个分区文件中

我有一个pig作业,它分析大量日志文件并生成一组属性和一组具有这些属性的ID之间的关系。我想将这种关系存储在HDFS上,但我希望以一种对其他Hive/Pig/MapReduce作业友好的方式来操作数据或数据子集,而无需摄取完整数据我的Pig作业的输出,因为这是大量数据。例如,如果我的关系模式是这样的:relation:{group:(attr1:long,attr2:chararray,attr3:chararray),ids:{(id:chararray)}}我真的很想能够对这些数据进行分区,将其存储在如下所示的文件结构中:/results/attr1/attr2/attr3/fil

hadoop - Json 在 Pig 中用 elephantbird 解析

我无法获取以下数据以在Pig中解析。这是twitterAPI在从特定用户获取所有推文后返回的内容。源数据:(我删除了一些数字以免意外侵犯任何人的隐私)[{"created_at":"SatNov0123:15:45+00002014","id":5286804225,"id_str":"5286864225","text":"@Beace_yournanmakesmelaughwithsomeofthethingsshecomesoutwith","source":"\u003cahref=\"http:\/\/twitter.com\/download\/iphone\"rel=\"

hadoop - 使用 Pig 加载 Json 数据

我正在尝试使用jsonLoader()从下面提到的json格式中提取数据:{"Partition":"10","Key":"618897","Properties2":[{"K":"A","T":"String","V":"M"},{"K":"B","T":"String","V":"N"},{"K":"D","T":"String","V":"O"}]}{"Partition":"11","Key":"618900","Properties2":[{"K":"A","T":"String","V":"W”"},{"K":"B","T":"String","V":"X"},{"K":"

hadoop - 运行 Pig 脚本时出现堆空间问题

我正在尝试执行一个包含大约3000万数据的pig脚本,但出现以下堆空间错误:>ERROR2998:Unhandledinternalerror.Javaheapspace>>java.lang.OutOfMemoryError:Javaheapspace>atjava.util.Arrays.copyOf(Arrays.java:2367)>atjava.lang.AbstractStringBuilder.expandCapacity(AbstractStringBuilder.java:130)>atjava.lang.AbstractStringBuilder.ensureCap

hadoop - pig : filtering out empty string

我正在尝试从我的数据中过滤掉NULL和空字符串data_filtered=FILTERraw_data byCOLUMN_NAMEisnotnullandCOLUMN_NAME!='';当我运行它时,出现以下错误:ERRORorg.apache.pig.tools.grunt.Grunt-ERROR1200:Unexpectedcharacter' '如何解决此错误并过滤掉NULLS和空白字符串? 最佳答案 可以使用TRIM函数过滤空格data_filtered=FILTERraw_databy(COLUMN_NAMEisnotnu