草庐IT

NICKNAMES

全部标签

hadoop - 通过 levenshtein 在 Hive 或 Impala 中加入的有效方法

我有两个表,一个包含大约17K(NLIST)条记录,另一个包含57K(FNAMES)条记录。我想通过使用levenshtein公式比较记录来加入两者。下面是表格内容的例子:表NLIST:+------+-------------+|ID|S_NAME|+------+-------------+|1|Avi||2|Moshe||3|David|....表FNAMES:+------+-------------+|ID|NICKNAMES|+------+-------------+|1|Avile||2|Dudi||3|Moshiko||4|Avi||5|DAVE|....以上表格仅为