草庐IT

Pig-Latin

全部标签

hadoop - 使用 pig 更新 Hbase 表

我知道可以使用Put更新HBase中一行的不同列。我正在使用Pig+HBase和HBaseStorage。我能够在HBase中存储和加载,而不会出现表中不存在键的Pig表达式的任何问题。但是,当我开始尝试使用存在键的HBaseStorage()更新表时,作业失败了。有人可以澄清HBaseStorage是否只能用于存储新记录或更新现有记录中的列。提前致谢。 最佳答案 实际上,您可以使用HBaseStorage来更新现有记录中的列。如果您向我们提供错误消息以获取更多详细信息。 关于hadoo

hadoop - pig 分层抽样?

有没有人知道如何对pig进行分层抽样?(wikipedia)目前,我会做类似的事情:relation2=SAMPLErelation10.05;但我的数据集包含一个出现几次的标签列,其中一些很少见(例如0.5%),我希望我的随机下采样不要忘记所有这些。非常感谢。 最佳答案 您可以通过使用RANDOM()实现您自己的采样方法,然后过滤掉值低于0.95的行。因此,如果您想对此抽样进行分层,您可以计算行中有多少部分包含特定值,然后相应地缩放随机值,以便以不同的速率对不同的值进行抽样。 关于ha

hadoop - 如何使用 Pig 将数据存储在 HDFS 上的多个分区文件中

我有一个pig作业,它分析大量日志文件并生成一组属性和一组具有这些属性的ID之间的关系。我想将这种关系存储在HDFS上,但我希望以一种对其他Hive/Pig/MapReduce作业友好的方式来操作数据或数据子集,而无需摄取完整数据我的Pig作业的输出,因为这是大量数据。例如,如果我的关系模式是这样的:relation:{group:(attr1:long,attr2:chararray,attr3:chararray),ids:{(id:chararray)}}我真的很想能够对这些数据进行分区,将其存储在如下所示的文件结构中:/results/attr1/attr2/attr3/fil

hadoop - Json 在 Pig 中用 elephantbird 解析

我无法获取以下数据以在Pig中解析。这是twitterAPI在从特定用户获取所有推文后返回的内容。源数据:(我删除了一些数字以免意外侵犯任何人的隐私)[{"created_at":"SatNov0123:15:45+00002014","id":5286804225,"id_str":"5286864225","text":"@Beace_yournanmakesmelaughwithsomeofthethingsshecomesoutwith","source":"\u003cahref=\"http:\/\/twitter.com\/download\/iphone\"rel=\"

hadoop - 使用 Pig 加载 Json 数据

我正在尝试使用jsonLoader()从下面提到的json格式中提取数据:{"Partition":"10","Key":"618897","Properties2":[{"K":"A","T":"String","V":"M"},{"K":"B","T":"String","V":"N"},{"K":"D","T":"String","V":"O"}]}{"Partition":"11","Key":"618900","Properties2":[{"K":"A","T":"String","V":"W”"},{"K":"B","T":"String","V":"X"},{"K":"

hadoop - 运行 Pig 脚本时出现堆空间问题

我正在尝试执行一个包含大约3000万数据的pig脚本,但出现以下堆空间错误:>ERROR2998:Unhandledinternalerror.Javaheapspace>>java.lang.OutOfMemoryError:Javaheapspace>atjava.util.Arrays.copyOf(Arrays.java:2367)>atjava.lang.AbstractStringBuilder.expandCapacity(AbstractStringBuilder.java:130)>atjava.lang.AbstractStringBuilder.ensureCap

hadoop - pig : filtering out empty string

我正在尝试从我的数据中过滤掉NULL和空字符串data_filtered=FILTERraw_data byCOLUMN_NAMEisnotnullandCOLUMN_NAME!='';当我运行它时,出现以下错误:ERRORorg.apache.pig.tools.grunt.Grunt-ERROR1200:Unexpectedcharacter' '如何解决此错误并过滤掉NULLS和空白字符串? 最佳答案 可以使用TRIM函数过滤空格data_filtered=FILTERraw_databy(COLUMN_NAMEisnotnu

hadoop - pig 错误 2118 : Input path does not exist

我正在运行简单的pig脚本,但它一直在抛出异常,说;org.apache.pig.backend.executionengine.ExecException:ERROR2118:输入路径不存在相信我路径是绝对正确的(根据我的理解),我尝试在本地文件系统和MapReduce模式下使用相同的数据,但没有区别。 最佳答案 我得到了解决,背后的原因是,关系名称和指定的路径/文件夹具有相同的名称,在这种情况下它不会迭代子文件夹或目录并产生这样的错误:) 关于hadoop-pig错误2118:Inp

java - 在 hadoop 作业结束后运行 pig 作业时的 GC 开销

我正在运行一个非常简单的pig脚本(pig0.14,Hadoop2.4):customers=load'/some/hdfs/path'usingSomeUDFLoader();customers2=foreach(groupcustomersbycustomer_id)generateFLATTEN(group)ascustomer_id,MIN(dw_customer.date)asdate;storecustomers2into'/hdfs/output'usingPigStorage(',');这将启动约60000个映射器和999个缩减器的map-reduce作业。在map-r

apache - 支持 Hive、Sqoop 和 Pig

ApacheAtlas是否支持Spark、Pig和Sqoop的标签?如果Atlas支持Pig、Sqoop和Spark,那么是否有任何类型的定制我们必须执行才能使其在Atlas中运行。如果我们想实现上述内容,我们可以从那里获得确切的过程带有Atlas的Hadoop组件。Atlas在哪里存储元数据?我们如何获得Atlas元数据的架构。Atlas是否提供为其他工具(例如Informatica)并将其与自己的元数据集成?如果Atlas支持上述功能,那么我们如何集成informatica使用Atlas元数据。 最佳答案 问题1:可以在http