我正在尝试使用Dedupe包将一个小的杂乱数据合并到一个规范表中。由于规范表非常大(1.22亿行),我无法将其全部加载到内存中。我目前使用的方法基于this需要一整天的时间来处理测试数据:一个存储在dict中的300k行的杂乱数据表,以及一个存储在mysql中的600k行的规范数据表。如果我在内存中完成所有操作(以字典形式读取规范表),则只需半小时。有没有办法让它更有效率?blocked_pairs=block_data(messy_data,canonical_db_cursor,gazetteer)clustered_dupes=gazetteer.matchBlocks(bloc
给定以下python脚本:#dedupe.pyimportredefdedupe_whitespace(s,spacechars='\t'):"""Mergerepeatedwhitespacecharacters.Example:>>>dedupe_whitespace(r"Green\t\tGround")#doctest:+REPORT_NDIFF'Green\tGround'"""forwinspacechars:s=re.sub(r"("+w+"+)",w,s)returns该函数在python解释器中按预期工作:$python>>>importdedupe>>>dedupe
给定以下python脚本:#dedupe.pyimportredefdedupe_whitespace(s,spacechars='\t'):"""Mergerepeatedwhitespacecharacters.Example:>>>dedupe_whitespace(r"Green\t\tGround")#doctest:+REPORT_NDIFF'Green\tGround'"""forwinspacechars:s=re.sub(r"("+w+"+)",w,s)returns该函数在python解释器中按预期工作:$python>>>importdedupe>>>dedupe