我是hadoop的新手,我有一个用例,其中有3列名称、值、时间戳。数据是,逗号分隔并且是csv格式,我需要检查重复项并使用pig删除它们。我怎样才能做到这一点。 最佳答案 您可以使用pigDISTINCT函数来删除重复项。请引用这个link了解DISTINCT函数。正如您所说,您的数据驻留在HIVE表中,并且您想通过pig访问这些数据,您可以使用HCatLoader()通过pig访问HIVE表。HCatalog可用于外部和内部HIVE表。但是在使用这个功能之前,请确认你的集群已经配置了HCatalog。如果您使用的是Hadoop2.