pig4cloud

hadoop - 从 PIG 中的一个元组生成一组元组

我找不到任何解决方案如何根据规则在Pig中从一个元组生成一组元组:输入:((1,2,3),(a,b,c),(aaa,bbb,ccc))输出:(1,a,aaa)(2,b,bbb)(3,c,ccc)假设应该应用TOBAG和FLATTEN，但这似乎太棘手了。最佳答案使用zip内置函数和参数解包(“star”args):>>>x=((1,2,3),('a','b','c'),('aaa','bbb','ccc'))>>>tuple(zip(*x))((1,'a','aaa'),(2,'b','bbb'),(3,'c','ccc'))>>

hadoop PIG 39 section strong tuples apache-pig flatten

hadoop - 如何在 Pig 中按列删除重复项

谁能帮我从我的csv文件中删除旧记录并使用Pig保留最近的记录。例如:输入Key1日期XXXXXP3817-10-2017XXXXXP3812-10-2017YYYYYP3811-10-2017YYYYYP3823-09-2017YYYYYP3814-09-2017ZZZZZP3825-10-2017ZZZZZP3810-10-2017我的预期输出是Key1日期XXXXXP3817-10-2017YYYYYP3811-10-2017ZZZZZP3825-10-2017并且header也包含在输出中。请建议我怎样才能做到这一点？最佳答案

何在 hadoop section 2017 https bigdata apache-pig

hadoop - 在 Google Cloud Dataproc 环境中使用 Hadoop 流运行 python map reduce 作业时出错

我想使用hadoop流方法在GoogleCloudDataproc中运行pythonmapreduce作业。我的mapreducepython脚本、输入文件和作业结果输出位于Google云存储中。我试着运行这个命令hadoopjar/usr/lib/hadoop-mapreduce/hadoop-streaming.jar-filegs://bucket-name/intro_to_mapreduce/mapper_prod_cat.py-mappergs://bucket-name/intro_to_mapreduce/mapper_prod_cat.py-filegs://buck

时出 Dataproc intro_to_mapreduce mapreduce bucket-name hadoop google-cloud-platform hadoop-streaming google-cloud-dataproc

hadoop - Hadoop 中的作业历史服务器是什么？为什么在 Map Reduce 模式下启动 Pig 之前必须启动历史服务器？

在以mapreduce模式启动Pig之前，您始终必须启动历史服务器，否则在尝试执行PigLatin语句时会生成以下日志:2018-10-1815:59:13,709[main]INFOorg.apache.hadoop.mapred.ClientServiceDelegate-Applicationstateiscompleted.FinalApplicationStatus=SUCCEEDED.**Redirectingtojobhistoryserver**2018-10-1815:59:14,713[main]INFOorg.apache.hadoop.ipc.Client-Re

hadoop section JobHistory Pig mapreduce bigdata apache-pig history

hadoop - 无法在 Google Cloud Dataproc 上启动 Apache Flink 1.7

我使用Hadoop2.9.2启动了Dataproc集群，下载了Flink1.7.2并尝试使用以下命令启动它:./bin/yarn-session.sh-n2失败并显示以下错误消息:SettingHADOOP_CONF_DIR=/etc/hadoop/confbecausenoHADOOP_CONF_DIRwasset.2019-02-1512:56:05,679INFOorg.apache.flink.configuration.GlobalConfiguration-Loadingconfigurationproperty:jobmanager.rpc.address,localho

Dataproc hadoop java URLClassLoader ClassLoader apache-flink google-cloud-dataproc

java - 从 Pig 获取字段模式的名称

我正在为Pig开发JsonStorage。一切正常，但至少我需要从pig模式中获取字段的名称(即crdate、名称、位置)。|A|crdate:bytearray|name:bytearray|positions:bytearray|实际上我通过StoreFunc扩展了我的类，它不提供获取字段名称的函数。publicclassPigJsonStorageextendsStoreFunc{..}谁能帮帮我:) 最佳答案免责声明:我对自己有点陌生，还没有实现存储类。在我看来，StoreFunc有一个方法:StoreFunc.check

java Pig section StoreFunc bytearray schema hadoop apache-pig

hadoop - Pig 版本不匹配 (Hadoop)

有没有人遇到过这个问题？这是错误日志:协议(protocol)org.apache.hadoop.mapred.JobSubmissionProtocol版本不匹配。(客户端=20，服务器=21)我用的是pig0.8.0，我的hadoop版本是0.20.10。如果有人能帮助我，我将不胜感激。最佳答案我认为Pig0.8.0与Hadoop0.20.2捆绑在一起，即使是较小的版本差异也很重要。因此，例如，您可以使用Hadoop0.20.10重新编译Pig，以便在双方都具有相同的Hadoop版本。

hadoop section apache-pig

hadoop - 如何从 PIG.. 调用 perl 脚本？

任何人都知道如何从pig脚本调用perl脚本..我也想知道如何从perl调用pig..请帮我解决这个问题。谢谢，兰吉斯最佳答案第一个问题:“从pig调用perl脚本”最接近的结果是Pig'sstreamingcapability.文档中的示例:A=LOAD'data';B=STREAMATHROUGH'stream.pl-n5';您必须确保您的perl脚本通过标准输入接收数据并通过标准输出输出数据。这是Pig通过您正在进行的调用流式传输数据的方式。我不确定脚本应该输入和输出的数据格式是什么(您可能需要尝试一个示例)。第二个问题:

hadoop perl section pig apache-pig

hadoop - 在 Apache Pig Latin 中转置数据

我需要“转置”如下所示的数据:idCity111Chicago111NewYork111LA222Paris222London222Tokyo到:111ChicagoNewYorkLA222ParisLondonTokyo每个id都有三个条目，因此生成的关系将有4个字段。我试图避免使用UDF。有任何想法吗？最佳答案这不是基本分组吗？B=GROUPABYid检查http://pig.apache.org/docs/r0.7.0/piglatin_ref2.html#GROUP 关于ha

hadoop Apache section code stackoverflow apache-pig

java - 安装 Apache Pig，为什么我看到 Hbase 和 Hive 正在安装？

我正在从this安装Apachepig的piggybank|教程。当我使用ant构建源代码时，我观察到它安装了apachehive和hbase。谁能告诉我为什么这样做？Dosepig使用hive和hbase？最佳答案 Pig有HBase和Hive作为依赖，因为它有一个HBaseloader和一个Hiveloader标准发行版附带的。我不担心它们会被安装。他们只是构建jar，而不是部署任何东西。关于java-安装ApachePig，为什么我看到Hbase和Hive正在安装？，我们在St

Apache Hbase section strong java hadoop apache-pig

215 216 217218219 220 221