草庐IT

GroupingComparator

全部标签

Hadoop GroupingComparator 类的用途

我正在通过字符串键(即名称属性)实现两个数据集A和B之间的连接。我需要在此连接中匹配相似的名称。我的第一个想法是,考虑到我正在实现二次排序以在从数据库B提取值之前获取从数据库A提取的值,我的第一个想法是创建一个分组比较器类,而不是使用compareTo方法按自然键对值进行分组,使用了字符串相似度算法,但没有达到预期的效果。请参阅下面的代码。publicclassStringSimilarityGroupingComparatorextendsWritableComparator{protectedStringSimilarityGroupingComparator(){super(Jo