草庐IT

hadoop - 从 ozzie hadoop 运行安装 pig

我在我的系统上安装了oozie,我也安装了pig。现在我希望ozzie从安装在我系统上的pig运行工作流,而不是从ozziesharelib。请帮助,因为我收到以下错误:2015-08-1917:15:25,724WARNPigActionExecutor:523-SERVER[edb-node1]USER[hduser]GROUP[-]TOKEN[]APP[pig-wf]JOB[0000002-150819170943510-oozie-hdus-W]ACTION[0000002-150819170943510-oozie-hdus-W@pig-node]LauncherERROR,

xml - 在 Pig 中使用 Hcatalog 加载配置单元表时出错

我正在尝试使用pig中的Hcatalog加载我的配置单元表,为此我编写了下面的代码,但出现错误。我正在使用pig-useHCatalog打开我的pig壳代码:A=LOAD'patient_info'USINGorg.apache.hive.hcatalog.pig.HCatLoader();错误:ERRORhive.ql.metadata.Table-Unabletogetfieldfromserde:com.ibm.spss.hive.serde2.xml.XmlSerDejava.lang.RuntimeException:MetaException(message:java.la

hadoop - oozie pig 配置操作中的 <job-tracker> 和 <name-node> - 我在哪里可以找到它们?

我正在尝试运行我的第一个oozie工作流程,很简单行动。任何人都可以帮助这两个标签:[JOB-TRACKER][NAME-NODE]据我了解,参数是指现有配置。我正在使用预配置的环境,所以你能帮忙在哪里找到这些值吗? 最佳答案 如果您有权查看Hadoop的配置文件,请打开core-site.xml以从以下属性中找到名称节点。fs.default.namehdfs://ec2-1-1-1-1.compute-1.amazonaws.com:9000打开mapred-site.xml找到工作跟踪器。mapred.job.trackere

azure - 访问 HDInsight 上的 Pig 日志

如何访问HDInsight上的pig日志文件?当pig出错时,输出显示:Detailsatlogfile:C:\apps\dist\hadoop-1.2.0.1.3.7.1-01293\logs\pig_1399635949926.log我在blob存储中找不到类似的东西,我不知道如何访问该路径。干杯。 最佳答案 因为它存在于头节点的C:\驱动器上。访问它的简单步骤:前往manage.windowsazure.com并转到您的HDI集群启用远程访问,选择用户和密码(注意管理员保留)然后登录机器打开资源管理器并转到该路径复制并粘贴到本

hadoop - 在 Hadoop Hive Pig 场景中需要专家帮助

我还在学习Hadoop的过程中,遇到过一个具体的情况:我有两个表,mySQL中的第一个表A包含列:电子邮件和地址,而第二个表B在HDFS中包含列:id、电子邮件和地址。我必须在两个表中查找电子邮件,并使用表A中的新行更新表B(表B中不存在的电子邮件是表A中的新记录条目,因此必须在表B中移动).我可以使用Pig或Hive脚本来解决这个问题吗?有人可以帮我解决这个问题吗? 最佳答案 目前将MySql表加载到HDFS需要使用Sqoop或自定义加载UDF进行一些努力。看这个SOLink一旦您在HDFS中拥有数据,只需执行左(或右)连接并获取

hadoop - 如何将数据分类到 Pig 中的 Zebra 表中?

我正在尝试使用TableStorer将未排序的数据从CSV存储到Pig中的Zebra表中。我是否需要在存储之前执行ORDERBY以确保它已排序和/或我是否需要将一些信息传递给TableStorer以指示排序字段? 最佳答案 根据文档:ZebraandPig在排序数据部分:Pig允许您按升序或降序对数据进行排序(有关更多信息,请参阅Pigreferencemanual)。目前,Zebra支持按升序排序的表格。Zebra不支持按降序排列的表格;如果Zebra遇到要存储的表是按降序排序的,Zebra会发出警告并将该表存储为未排序的表。因此

json - pig jsonloader 数组解析问题

我下面有一个json编码的数据需要用pig解析。{"arr":[1,2,3,4]}根据http://help.mortardata.com/technologies/pig/json#toc_4JsonLoaderSchemaGuidelines的文档,我的加载模式是:a=load'testJsonPig.log'usingJsonLoader('arr:{t:(i:int)}');并转储它:dumpa;但我得到了意想不到的结果:()结果是空的,不知道为什么,好像遇到了和这个链接一样的问题PigdefaultJsonLoaderschemaissue描述。我的pig版是ApachePi

来自 apache PIG 的 mongodb 批量插入

mongo-hadoop的com.mongodb.hadoop.pig.MongoInsertStorage(用于PIG)是否支持批量/批量插入?如果是这样,如何启用它?我搜索过,但找不到任何关于它的文档。https://github.com/mongodb/mongo-hadoop 最佳答案 它本身不支持批量写入。它委托(delegate)给RecordWriter,它在hadoop中将事情传递下去。 关于来自apachePIG的mongodb批量插入,我们在StackOverflow

hadoop - 如何将数据传递给 pig 关系

请让我知道我们是否可以将特定的关系字段加载到另一个关系字段中,如下所示usergroup=GROUPinputBYuser;output=FOREACHusergroup{intermediate=input.traid;distinctdata=DISTINCTintermediate;GENERATEgroupasuser,count(distinctdata);}; 最佳答案 你不能将一个特定的关系领域加载到另一个领域。根据我的理解,您想要区分input.traid的值,然后计算它。在这里,对于每个用户的count(disti

hadoop - 尝试转储表时发生 Pig 错误

我正在尝试运行一个非常简单的pig脚本并不断遇到复杂情况。脚本:log=LOAD'C:/Users/malanio/Documents/test.log'USINGPigStorage(',')AS(user:chararray,some:long,some2:chararray);DUMPlog;我正在加载的文件:ravi,1,1出现以下错误:C:\Users\malanio\Documents>pig-xlocaltestrun.pig2014-06-1214:46:22,939[main]INFOorg.apache.pig.Main-ApachePigversion0.12.1