Pig

ubuntu - Apache Pig 和 Hadoop Connection 中运行教程脚本的环境设置是什么？

我尝试在Ubuntu中运行pig教程脚本两天，但是我无法让pig连接到hadoop文件系统。它仍然在说:“正在连接到hadoop文件系统:file:///”其实hadoop和pig都可以用，我可以用，pig安装下的pig脚本也可以连接hadoop。“连接到hadoop文件系统:hdfs://localhost:54310”我的hadoop目录在/home/hadoop/Cluster下，pig安装在/usr/share/pig下，pig教程在home/hadoop/pig下，hadoop安装在/home/someuser/hadoop下。我几乎尝试了网络上的所有解决方案，但我仍然需要一

中运 Connection hadoop section pig ubuntu apache-pig

hadoop - 无法使用单节点 hadoop 服务器运行 pig

我已经用ubuntu安装了一个虚拟机。它将hadoop作为单个节点运行。后来我在上面安装了apachepig。apachepig在本地模式下运行良好，但它总是提示ERROR2999:Unexpectedinternalerror。无法创建DataStorage我遗漏了一些非常明显的东西。有人可以帮我运行吗？更多详情:1.我假设hadoop运行良好，因为我可以在python中运行MapReduce作业。2.pig-xlocal如我所料运行。3.当我输入pig时出现以下错误ErrorbeforePigislaunched----------------------------ERROR29

hadoop pig apache java apache-pig

hadoop - Apache Pig 可以从 STDIN 而不是文件加载数据吗？

我想使用Apachepig转换/合并两个文件中的数据，但我想逐步实现它，这意味着，从真实数据中测试它，但尺寸很小(例如10行)，是可以使用从STDIN读取并输出到STDOUT的pig吗？最佳答案基本上Hadoop在variousways中支持Streaming,但Pig最初缺乏对通过流式加载数据的支持。然而，有一些解决方案。可以查看HStreaming:A=LOAD'http://myurl.com:1234/index.html'USINGHStream('\n')AS(f1,f2);

hadoop Apache section noreferrer noopener apache-pig

java - 用 Pig Latin 每组写一个文件

问题:我有许多包含ApacheWeb服务器日志条目的文件。这些条目不按日期时间顺序排列，并且分散在文件中。我正在尝试使用Pig读取一天的文件，按日期时间对日志条目进行分组和排序，然后将它们写入以其包含的条目的日期和时间命名的文件。设置:导入文件后，我使用Regex获取日期字段，然后将其截断为小时。这会生成一个集合，其中一个字段中有记录，另一个字段中的日期被截断为小时。从这里开始，我在日期-小时字段上进行分组。第一次尝试:我的第一个想法是在使用FOREACH遍历我的组时使用STORE命令，但很快发现这对Pig来说并不酷。第二次尝试:我的第二次尝试是在piggybank中使用MultiSt

Latin java strong code section hadoop apache-pig

Hadoop Pig 比较两个值并对它们进行排序

我目前正在学习hadoop框架和piglatin语言。现在我遇到了问题。我有一个具有以下格式的数据集:"longa,longb,charc,chard"现在我想和pig一起阅读这个数据集。负载和PigStoarage功能没问题..bla=load'data/examples/test'as(a:long,b:long,c:chararray,d:chararray);我的下一步是，我想在每一行上比较a和b。如果a大于b没关系。如果b大于a，我不想将a与b交换，因此较高的值始终是我的数据集的第一个值...这可能吗？在Java中，我可以用一个简单的“compareTo”来做到这一点....

Hadoop Pig code section pre apache-pig compareto

android - 将 Apache Pig 导入 Android 项目导致 "Unable to execute dex: Java heap space"错误

我试图在我的Android应用程序中序列化一个TreeMap，这样我就可以将它保存到一个SharedPreferences，如thisStackOverflowQ&A中所建议的那样.它用于ArrayList，但我还是捕获了机会。重点是使用ApachePig项目中的ObjectSerializer类将TreeMap序列化为String并将其保存在共享首选项中的该数据类型中。然而，当我在不使用Hadoop的情况下导入.jar后，我就开始遇到很多错误。当我在模拟器中运行我的应用程序时(我使用的是Eclipse)，我的IDE底部的状态栏永远不会超过消息“正在启动[应用程序名称]100%...”

amp android section code stackoverflow serialization hadoop sharedpreferences apache-pig

hadoop - 简单的 pig 加入并处理两个袋子

我有以下简单的pig脚本，AA=LOAD'A'USINGPigStorage(',')as(f1,f2,f3);BB=LOAD'B'AS(f1);C=foreachAAgeneratef1;C=JOINAABYf1LEFTOUTER,BBBYf1using'replicated';D=FOREACHCGENERATEFLATTEN((IsEmpty(AA)?null:AA));storeDinto'd';但是当我运行时，它给了我这个错误:无效的标量投影:AA:列需要从关系中投影才能用作标量你能帮忙吗？最好的，萨拉最佳答案根据Is

并处 hadoop section IsEmpty noreferrer apache-pig

hadoop - 当 mapred.job.shuffle.input.buffer.percent=0.70 时，pig join 在 reducer 中出现 OutOfMemoryError

我们正在一个小表和一个大倾斜表之间进行简单的pig连接。由于另一个错误(pigskewedjoinwithabigtablecauses"Splitmetadatasizeexceeded10000000")，我们无法使用"usingskewed":(如果我们使用默认的mapred.job.shuffle.input.buffer.percent=0.70我们的一些reducer在shuffle阶段会失败:org.apache.hadoop.mapred.Task:attempt_201305151351_21567_r_000236_0:Mapoutputcopyfailure:ja

OutOfMemoryError shuffle section code hadoop mapreduce out-of-memory apache-pig

hadoop - 在 Apache Pig 中合并两个数据集

我有两个hbase输入别名:X:(a1,b2)(a2,b2)...(an,bn)Y:(c1)(c2)...(cn)现在我想“加入”两个别名:X的第一行和Y的第一行。最终结果应该是:RESULT:(a1,b1,c1)(a2,b2,c2)...(an,bn,cn)我该怎么做？最佳答案 Pig的一个基本原则是顺序无关紧要。更一般地说，关系是元组的集合，而不是元组的列表。如果顺序对您的数据很重要，那么它应该反射(reflect)在数据本身中，而不是数据恰好存储的方式。不过，如果您可以保证在加载数据时Pig会按照您希望的顺序处理数据，则确实

hadoop Apache section code Enumerate mapreduce apache-pig cloudera

java - 在 yarn "org.apache.hadoop.ipc.Client - Retrying connect to server: tasktracker3/10.201.2.169:50000"上运行时在 apache Pig 中出现错误

我正在运行ApachePig0.11.2和Hadoop2.2.0。我在Pig中运行的大多数简单作业都运行良好。但是，每当我尝试在大型数据集上使用GROUPBY或LIMIT运算符时，我都会收到以下连接错误:2013-12-1811:21:28,400[main]INFOorg.apache.hadoop.ipc.Client-Retryingconnecttoserver:tasktracker2/10.201.2.145:54957.Alreadytried0time(s);retrypolicyisRetryUpToMaximumCountWithFixedSleep(maxRetr

apache tasktracker3 RetryUpToMaximumCountWithFixedSle hadoop java apache-pig hadoop-yarn

94 95 969798 99 100