MinHash_草庐IT

c# - 使用MinHash查找2张图像之间的相似性

我正在使用MinHash算法在图像之间找到相似的图像。我碰到了HowcanIrecognizeslightlymodifiedimages?这个帖子，它指出了MinHash算法。我在此博客文章SetSimilarityandMinHash中使用了C#实现。但是在尝试使用实现时，我遇到了两个问题。我应该将universe值设置为什么值？将图像字节数组传递给HashSet时，它仅包含不同的字节值；从而比较1到256之间的值。MinHash中的这个universe是什么？我该怎么做才能改善C#MinHash的实现？由于HashSet包含最多256个值，因此相似性值始终为1。这是使用来自Set

c#MinHash code br noreferrer image-processing fuzzy-comparison

MinHash-LSH 哈希模糊去重：如何解决医学大模型的大规模数据去重？

MinHash-LSH最小哈希+局部敏感哈希：如何解决医学大模型的大规模数据去重？大模型的数据问题MinHash-LSH最小哈希+局部敏感哈希：大规模数据集去重优化Jaccard相似度：用于比较样本集之间的相似性降维技术MinhashLSH–局部敏感哈希MinHash-LSH多个开源数据集去重大模型的数据问题问题：训练医学大模型的数据规模真的很大，其中会夹杂很多重复数据。重复数据对于大模型微调也有较大影响，数据集必须去重后再用于模型训练。临床数据：20亿条文本数据教材数据：1000+本指南7万+药品说明书N个科室疾病培训数据N本古籍、教材…开源数据：中文医学命名实体识别CMedEE中文医学文

哈希大规 span class token 算法

hash - 在 Redis 中交叉巨大的 HyperLogLogs 的最佳方法

问题很简单:我需要根据Redis的表示找到最佳策略来实现准确的HyperLogLog联合——这包括在数据结构导出以供其他地方使用时处理它们的稀疏/密集表示。两种策略有两种策略，其中一种似乎简单得多。我查看了实际的Redis源代码，我遇到了一些麻烦(我自己在C中并不大)弄清楚从精度和效率的角度来看使用他们的内置结构/例程还是开发我自己的更好.对于它的值(value)，我愿意牺牲空间和某种程度的错误(stdev+-2%)来追求极大集合的效率。1。包容原则到目前为止，这是两者中最简单的一个——本质上，我只是将无损联合(PFMERGE)与此原理结合使用来计算重叠的估计值。测试似乎表明在许多情况

HyperLogLogs Redis section 的 hash hashtable hyperloglog minhash

hash - 在 Redis 中交叉巨大的 HyperLogLogs 的最佳方法

问题很简单:我需要根据Redis的表示找到最佳策略来实现准确的HyperLogLog联合——这包括在数据结构导出以供其他地方使用时处理它们的稀疏/密集表示。两种策略有两种策略，其中一种似乎简单得多。我查看了实际的Redis源代码，我遇到了一些麻烦(我自己在C中并不大)弄清楚从精度和效率的角度来看使用他们的内置结构/例程还是开发我自己的更好.对于它的值(value)，我愿意牺牲空间和某种程度的错误(stdev+-2%)来追求极大集合的效率。1。包容原则到目前为止，这是两者中最简单的一个——本质上，我只是将无损联合(PFMERGE)与此原理结合使用来计算重叠的估计值。测试似乎表明在许多情况

HyperLogLogs Redis section 的 hash hashtable hyperloglog minhash

python - 你能推荐一个好的 minhash 实现吗？

我正在尝试寻找可以用于我的工作的minhash开源实现。我需要的功能非常简单，给定一个集合作为输入，实现应该返回它的minhash。首选Python或C实现，以防万一我需要破解它才能为我工作。任何指针都会有很大帮助。问候。最佳答案您应该按顺序查看以下开源库。所有这些都是用Python编写的，并展示了如何使用LSH/MinHash计算文档相似度:lshLSHHDC:Locality-SensitiveHashingbasedHighDimensionalClusteringMinHash

minhash python section noreferrer noopener hash