草庐IT

c# - 使用MinHash查找2张图像之间的相似性

我正在使用MinHash算法在图像之间找到相似的图像。我碰到了HowcanIrecognizeslightlymodifiedimages?这个帖子,它指出了MinHash算法。我在此博客文章SetSimilarityandMinHash中使用了C#实现。但是在尝试使用实现时,我遇到了两个问题。我应该将universe值设置为什么值?将图像字节数组传递给HashSet时,它仅包含不同的字节值;从而比较1到256之间的值。MinHash中的这个universe是什么?我该怎么做才能改善C#MinHash的实现?由于HashSet包含最多256个值,因此相似性值始终为1。这是使用来自Set

MinHash-LSH 哈希模糊去重:如何解决医学大模型的大规模数据去重?

MinHash-LSH最小哈希+局部敏感哈希:如何解决医学大模型的大规模数据去重?大模型的数据问题MinHash-LSH最小哈希+局部敏感哈希:大规模数据集去重优化Jaccard相似度:用于比较样本集之间的相似性降维技术MinhashLSH–局部敏感哈希MinHash-LSH多个开源数据集去重 大模型的数据问题问题:训练医学大模型的数据规模真的很大,其中会夹杂很多重复数据。重复数据对于大模型微调也有较大影响,数据集必须去重后再用于模型训练。临床数据:20亿条文本数据教材数据:1000+本指南7万+药品说明书N个科室疾病培训数据N本古籍、教材…开源数据:中文医学命名实体识别CMedEE中文医学文

hash - 在 Redis 中交叉巨大的 HyperLogLogs 的最佳方法

问题很简单:我需要根据Redis的表示找到最佳策略来实现准确的HyperLogLog联合——这包括在数据结构导出以供其他地方使用时处理它们的稀疏/密集表示。两种策略有两种策略,其中一种似乎简单得多。我查看了实际的Redis源代码,我遇到了一些麻烦(我自己在C中并不大)弄清楚从精度和效率的角度来看使用他们的内置结构/例程还是开发我自己的更好.对于它的值(value),我愿意牺牲空间和某种程度的错误(stdev+-2%)来追求极大集合的效率。1。包容原则到目前为止,这是两者中最简单的一个——本质上,我只是将无损联合(PFMERGE)与此原理结合使用来计算重叠的估计值。测试似乎表明在许多情况

hash - 在 Redis 中交叉巨大的 HyperLogLogs 的最佳方法

问题很简单:我需要根据Redis的表示找到最佳策略来实现准确的HyperLogLog联合——这包括在数据结构导出以供其他地方使用时处理它们的稀疏/密集表示。两种策略有两种策略,其中一种似乎简单得多。我查看了实际的Redis源代码,我遇到了一些麻烦(我自己在C中并不大)弄清楚从精度和效率的角度来看使用他们的内置结构/例程还是开发我自己的更好.对于它的值(value),我愿意牺牲空间和某种程度的错误(stdev+-2%)来追求极大集合的效率。1。包容原则到目前为止,这是两者中最简单的一个——本质上,我只是将无损联合(PFMERGE)与此原理结合使用来计算重叠的估计值。测试似乎表明在许多情况

python - 你能推荐一个好的 minhash 实现吗?

我正在尝试寻找可以用于我的工作的minhash开源实现。我需要的功能非常简单,给定一个集合作为输入,实现应该返回它的minhash。首选Python或C实现,以防万一我需要破解它才能为我工作。任何指针都会有很大帮助。问候。 最佳答案 您应该按顺序查看以下开源库。所有这些都是用Python编写的,并展示了如何使用LSH/MinHash计算文档相似度:lshLSHHDC:Locality-SensitiveHashingbasedHighDimensionalClusteringMinHash