草庐IT

CSVLoader

全部标签

hadoop - 在没有主键的情况下使用 pig 删除重复项

我是hadoop的新手,我有一个用例,其中有3列名称、值、时间戳。数据是,逗号分隔并且是csv格式,我需要检查重复项并使用pig删除它们。我怎样才能做到这一点。 最佳答案 您可以使用pigDISTINCT函数来删除重复项。请引用这个link了解DISTINCT函数。正如您所说,您的数据驻留在HIVE表中,并且您想通过pig访问这些数据,您可以使用HCatLoader()通过pig访问HIVE表。HCatalog可用于外部和内部HIVE表。但是在使用这个功能之前,请确认你的集群已经配置了HCatalog。如果您使用的是Hadoop2.

hadoop - Pig-0.10.0 : CSVLoader cannot be cast to org. apache.pig.StoreFuncInterface

我似乎无法弄清楚我哪里出了问题。该脚本非常适用于PigStorage,但为CSVLoader提供了这个ClassCastException。我检查了文档,但没有帮助。这是堆栈跟踪:PigStackTrace---------------ERROR1200:Pigscriptfailedtoparse:pigscriptfailedtovalidate:java.lang.ClassCastException:org.apache.pig.piggybank.storage.CSVLoadercannotbecasttoorg.apache.pig.StoreFuncInterfaceo