【C++进阶】十一、哈希的应用---布隆过滤器（二）

枫叶先生 2023-04-19 原文

一、布隆过滤器提出

在注册账号设置昵称的时候，有些软件要求每个用户昵称要保持唯一性，系统必须检测你输入的昵称是否被使用过，这本质就是一个K的模型，只需要判断这个昵称存在还是不存在

用哈希表存储用户昵称，缺点：浪费空间
用位图存储用户昵称，缺点：位图一般只能处理整形，如果内容编号是字符串，就无法处理了
将哈希与位图结合，即布隆过滤器

为什么说位图处理不了字符串？？

位图虽然能够大大节省内存空间，但由于字符串的组合形式太多了，一个字符的取值有256种，而一个数字的取值只有10种，字符串的数量是远远大于整数的，使用位图就会出现一个整数对应多个字符串的情况，即哈希冲突，这种冲突概率是很高的（如，某个昵称明明就是没有使用过，系统却判断使用过了）

而布隆过滤器可以把这些哈希冲突大大降低

二、布隆过滤器概念

布隆过滤器是由布隆（Burton Howard Bloom）在1970年提出的 一种紧凑型的、比较巧妙的概率型数据结构，特点是高效地插入和查询，可以用来告诉你 “某样东西一定不存在或者可能存在”，它是用多个哈希函数，将一个数据映射到位图结构中。此种方式不仅可以提升查询效率，也可以节省大量的内存空间

布隆过滤器实际上就是位图的变形、拓展

先说一下位图的误判

位图判断不在，是准确的
位图判断在，是不准确的，因为可能本来不在，但是这个位置跟别人冲突，出现误判，对于字符串这种误判率会很高

布隆过滤器可以大大降低这些哈希冲突

假设布隆过滤器使用三个哈希函数进行映射（位图只是使用一个哈希函数），每个字符串就会映射三个比特位，那么“find”在位图中会有三个比特位会被置1，就算前两个哈希函数计算出来的位置都产生了冲突（前两个比特位为1），但由于第三个哈希函数计算出的比特位的为0（第三个比特位为0），此时就会判断这个“find”不存在，这种误判概率大大降低了

但随着位图中添加的数据不断增多，位图中1的个数也在不断增多，此时就会导致误判的概率增加

布隆过滤器的特点：

当布隆过滤器判断一个数据存在可能是不准确的，因为这个数据对应的比特位可能被其他一个数据或多个数据占用了
当布隆过滤器判断一个数据不存在是准确的，因为如果该数据存在那么该数据对应的比特位都应该已经被设置为1了

如何控制误判率？？

过小的布隆过滤器很快所有的比特位都会被设置为1，此时布隆过滤器的误判率就会变得很高，因此布隆过滤器的长度会直接影响误判率，布隆过滤器的长度越长其误判率越小
此外，哈希函数的个数也需要权衡，哈希函数的个数越多布隆过滤器中比特位被设置为1的速度越快，并且布隆过滤器的效率越低，但如果哈希函数的个数太少，也会导致误判率变高。

如何选择哈希函数的个数和布隆过滤器的长度？？

有大佬通过计算得出了公式，博客链接：详解布隆过滤器的原理，使用场景和注意事项 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/43263751/

公式为：

其中k为哈希函数个数，m为布隆过滤器长度，n为插入的元素个数，p为误判率

直接使用第二个公式，这里可以大概估算一下：

如果使用3个哈希函数，即 k的值为3，ln2 的值我们取0.7，那么 m = 3*n/0.7 = 4.2n 左右，也就是布隆过滤器的长度应该是插入元素个数的4倍左右
如果使用4个哈希函数，即 k的值为4，ln2 的值我们取0.7，那么 m = 4*n/0.7 = 5.7n 左右，也就是布隆过滤器的长度应该是插入元素个数的6倍左右

注：布隆过滤器在STL中并没有实现，因为需求不一样，即所需哈希哈数个数不同，官方库就没有给出，有需要需要自己实现

三、布隆过滤器实现

布隆过滤器实现直接复用STL的bitset，bitset符合我们的需求，封装一下即可

size_t N 是位图长度，size_t X 是每个元素映射时建议的位图大小，布隆过滤器可以实现为一个模板类，因为插入布隆过滤器的元素不仅仅是字符串，也可以是其他类型的数据，只有调用者能够提供对应的哈希函数将该类型的数据转换成整型即可，但一般情况下布隆过滤器都是用来处理字符串的，所以这里可以将模板参数K的缺省类型设置为string

template<size_t N,//位图长度，N*X需要开的空间大小
		size_t X = 4,//使用3个哈希函数，布隆过滤器的长度应该是插入元素个数的4倍左右
		class K = string,
		class HashFunc1 = BKDRHash,
		class HashFunc2  = APHash,
		class HashFunc3 = DJBHash
		//有需要再增加哈希函数
	>

基本框架如下：

template<size_t N,//位图长度，N*X需要开的空间大小
	size_t X = 4,//使用3个哈希函数，布隆过滤器的长度应该是插入元素个数的4倍左右
	class K = string,
	class HashFunc1 = BKDRHash,
	class HashFunc2 = APHash,
	class HashFunc3 = DJBHash
	//有需要再增加哈希函数
>

class BloomFilter
{
public:

private:
	std::bitset<N* X> _bs;
};

这里还需增加字符串转换成整型的哈希函数，字符串哈希算法博客：各种字符串Hash函数 - clq - 博客园 (cnblogs.com)https://www.cnblogs.com/-clq/archive/2012/05/31/2528153.html

这里选取了经过测试后综合评分最高的BKDRHash、APHash和DJBHash哈希函数，这三种哈希算法在多种场景下产生哈希冲突的概率是最小的

三个哈希函数代码如下：

struct BKDRHash
{
	size_t operator()(const string& key)
	{
		size_t hash = 0;
		for (auto ch : key)
		{
			hash *= 131;
			hash += ch;
		}
		return hash;
	}
};

struct APHash
{
	size_t operator()(const string& key)
	{
		unsigned int hash = 0;
		int i = 0;

		for (auto ch : key)
		{
			if ((i & 1) == 0)
			{
				hash ^= ((hash << 7) ^ (ch) ^ (hash >> 3));
			}
			else
			{
				hash ^= (~((hash << 11) ^ (ch) ^ (hash >> 5)));
			}

			++i;
		}

		return hash;
	}
};

struct DJBHash
{
	size_t operator()(const string& key)
	{
		unsigned int hash = 5381;

		for (auto ch : key)
		{
			hash += (hash << 5) + ch;
		}

		return hash;
	}
};

3.1 布隆过滤器的插入

插入元素时，需要通过三个哈希函数分别计算出该元素对应的三个比特位，然后将位图中的这三个比特位设置为1即可，设置直接调用库里的即可

void set(const K& key)
{
    //计算出key对应的三个位
	size_t hash1 = HashFunc1()(key) % (N * X);
	size_t hash2 = HashFunc2()(key) % (N * X);
	size_t hash3 = HashFunc3()(key) % (N * X);
    //设置为1
	_bs.set(hash1);
	_bs.set(hash2);
	_bs.set(hash3);
}

3.2 布隆过滤器的查找

需要通过三个哈希函数分别计算出该元素对应的三个比特位，然后判断位图中的这三个比特位是否被设置为1即可，直接调用 bitset 的 test函数

只要这三个比特位当中有一个比特位未被设置则说明该元素一定不存在
如果这三个比特位全部被设置，则返回true表示该元素存在（可能存在误判）

bool test(const K& key)
{
	size_t hash1 = HashFunc1()(key) % (N * X);
	if (!_bs.test(hash1))
	{
		return false;
	}

	size_t hash2 = HashFunc2()(key) % (N * X);
	if (!_bs.test(hash2))
	{
		return false;
	}

	size_t hash3 = HashFunc3()(key) % (N * X);
	if (!_bs.test(hash3))
	{
		return false;
	}
	// 前面判断不在都是准确，不存在误判

	return true; // 可能存在误判，映射几个位置都冲突，就会误判
}

3.3 布隆过滤器的删除

布隆过滤器不能直接支持删除工作，因为在删除一个元素时，可能会影响其他元素

布隆过滤器判断一个元素存在时可能存在误判，因此无法保证要删除的元素确实在布隆过滤器当中，此时将位图中对应的比特位清0会影响其他元素
此外，就算要删除的元素确实在布隆过滤器当中，也可能该元素映射的多个比特位当中有些比特位是与其他元素共用的，此时将这些比特位清0也会影响其他元素

一种支持删除的方法：

将布隆过滤器中的每个比特位扩展成一个小的计数器，插入元素时给k个计数器(k个哈希函数计算出的哈希地址)加一，删除元素时，给k个计数器减一，通过多占用几倍存储空间的代价来增加删除操作。
缺陷：

无法确认元素是否真正在布隆过滤器中
存在计数回绕

布隆过滤器最终还是没有提供删除的接口，因为使用布隆过滤器本来就是要节省空间和提高效率的。在删除时需要遍历文件或磁盘中确认待删除元素确实存在，而文件IO和磁盘IO的速度相对内存来说是很慢的，并且为位图中的每个比特位额外设置一个计数器，就需要多用原位图几倍的存储空间，这个代价也是不小的

3.4 完整代码

#pragma once

#include <bitset>
#include <string>

namespace fy
{
	struct BKDRHash
	{
		size_t operator()(const string& key)
		{
			size_t hash = 0;
			for (auto ch : key)
			{
				hash *= 131;
				hash += ch;
			}
			return hash;
		}
	};

	struct APHash
	{
		size_t operator()(const string& key)
		{
			unsigned int hash = 0;
			int i = 0;

			for (auto ch : key)
			{
				if ((i & 1) == 0)
				{
					hash ^= ((hash << 7) ^ (ch) ^ (hash >> 3));
				}
				else
				{
					hash ^= (~((hash << 11) ^ (ch) ^ (hash >> 5)));
				}

				++i;
			}

			return hash;
		}
	};

	struct DJBHash
	{
		size_t operator()(const string& key)
		{
			unsigned int hash = 5381;

			for (auto ch : key)
			{
				hash += (hash << 5) + ch;
			}

			return hash;
		}
	};

	// 假设N是最多存储的数据个数
	// 平均存储一个值，开辟X个位
	template<size_t N,//位图长度，N*X需要开的空间大小
		size_t X = 4,//使用3个哈希函数，布隆过滤器的长度应该是插入元素个数的4倍左右
		class K = string,
		class HashFunc1 = BKDRHash,
		class HashFunc2  = APHash,
		class HashFunc3 = DJBHash
		//有需要再增加哈希函数
	>

	class BloomFilter
	{
	public:
		void set(const K& key)
		{
			//计算出key对应的三个位的哈希地址
			size_t hash1 = HashFunc1()(key) % (N * X);
			size_t hash2 = HashFunc2()(key) % (N * X);
			size_t hash3 = HashFunc3()(key) % (N * X);
			//设置为1
			_bs.set(hash1);
			_bs.set(hash2);
			_bs.set(hash3);
		}

		bool test(const K& key)
		{
			size_t hash1 = HashFunc1()(key) % (N * X);
			if (!_bs.test(hash1))
			{
				return false;
			}

			size_t hash2 = HashFunc2()(key) % (N * X);
			if (!_bs.test(hash2))
			{
				return false;
			}

			size_t hash3 = HashFunc3()(key) % (N * X);
			if (!_bs.test(hash3))
			{
				return false;
			}
			// 前面判断不在都是准确，不存在误判

			return true; // 可能存在误判，映射几个位置都冲突，就会误判
		}

	private:
		std::bitset<N* X> _bs;
	};
	
	void Test_BloomFilter()
	{
		srand(time(0));
		const size_t N = 100000;
		BloomFilter<N> bf;

		std::vector<std::string> v1;
		std::string url = "https://blog.csdn.net/m0_64280701/article/details/129699384?spm=1001.2014.3001.5501";

		for (size_t i = 0; i < N; ++i)
		{
			v1.push_back(url + std::to_string(i));
		}

		for (auto& str : v1)
		{
			bf.set(str);
		}

		// v2跟v1是相似字符串集，但是不一样
		std::vector<std::string> v2;
		for (size_t i = 0; i < N; ++i)
		{
			std::string url = "https://blog.csdn.net/m0_64280701/article/details/129699384?spm=1001.2014.3001.5501";
			url += std::to_string(999999 + i);
			v2.push_back(url);
		}

		size_t n2 = 0;
		for (auto& str : v2)
		{
			if (bf.test(str))
			{
				++n2;
			}
		}
		cout << "相似字符串误判率:" << (double)n2 / (double)N << endl;

		// 不相似字符串集
		std::vector<std::string> v3;
		for (size_t i = 0; i < N; ++i)
		{
			string url = "zhihu.com";
			url += std::to_string(i + rand());
			v3.push_back(url);
		}

		size_t n3 = 0;
		for (auto& str : v3)
		{
			if (bf.test(str))
			{
				++n3;
			}
		}
		cout << "不相似字符串误判率:" << (double)n3 / (double)N << endl;
	}
}

四、布隆过滤器优点

增加和查询元素的时间复杂度为:O(K), (K为哈希函数的个数，一般比较小)，与数据量大小无关
哈希函数相互之间没有关系，方便硬件并行运算
布隆过滤器不需要存储元素本身，在某些对保密要求比较严格的场合有很大优势
在能够承受一定的误判时，布隆过滤器比其他数据结构有这很大的空间优势
数据量很大时，布隆过滤器可以表示全集，其他数据结构不能
使用同一组散列函数的布隆过滤器可以进行交、并、差运算

五、布隆过滤器缺陷

有误判率，即存在假阳性(False Position)，即不能准确判断元素是否在集合中(补救方法：再建立一个白名单，存储可能会误判的数据)
不能获取元素本身
一般情况下不能从布隆过滤器中删除元素
如果采用计数方式删除，可能会存在计数回绕问题

----------------我是分割线---------------

文章到这里就结束了，下一篇即将更新

进阶布隆 xff0c xff0 哈希算法算法

有关【C++进阶】十一、哈希的应用---布隆过滤器（二）的更多相关文章

ruby - 将差异补丁应用于字符串/文件 - 2
对于具有离线功能的智能手机应用程序，我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl
ruby-on-rails - Rails 应用程序之间的通信 - 2
我构建了两个需要相互通信和发送文件的Rails应用程序。例如，一个Rails应用程序会发送请求以查看其他应用程序数据库中的表。然后另一个应用程序将呈现该表的json并将其发回。我还希望一个应用程序将存储在其公共(public)目录中的文本文件发送到另一个应用程序的公共(public)目录。我从来没有做过这样的事情，所以我什至不知道从哪里开始。任何帮助，将不胜感激。谢谢! 最佳答案无论Rails是什么，几乎所有Web应用程序都有您的要求，大多数现代Web应用程序都需要相互通信。但是有一个小小的理解需要你坚持下去，网站不应直接访问彼此
ruby - 无法运行 Rails 2.x 应用程序 - 2
我尝试运行2.x应用程序。我使用rvm并为此应用程序设置其他版本的ruby:$rvmuseree-1.8.7-head我尝试运行服务器，然后出现很多错误:$script/serverNOTE:Gem.source_indexisdeprecated,useSpecification.Itwillberemovedonorafter2011-11-01.Gem.source_indexcalledfrom/Users/serg/rails_projects_terminal/work_proj/spohelp/config/../vendor/rails/railties/lib/r
ruby-on-rails - Rails 应用程序中的 Rails : How are you using application_controller. rb 是新手吗？ - 2
刚入门rails，开始慢慢理解。有人可以解释或给我一些关于在application_controller中编码的好处或时间和原因的想法吗？有哪些用例。您如何为Rails应用程序使用应用程序Controller？我不想在那里放太多代码，因为据我了解，每个请求都会调用此Controller。这是真的？最佳答案 ApplicationController实际上是您应用程序中的每个其他Controller都将从中继承的类(尽管这不是强制性的)。我同意不要用太多代码弄乱它并保持干净整洁的态度，尽管在某些情况下ApplicationContr
ruby-on-rails - 如何在我的 Rails 应用程序 View 中打印 ruby 变量的内容？ - 2
我是一个Rails初学者，但我想从我的RailsView(html.haml文件)中查看Ruby变量的内容。我试图在ruby中打印出变量(认为它会在终端中出现)，但没有得到任何结果。有什么建议吗？我知道Rails调试器，但更喜欢使用inspect来打印我的变量。最佳答案您可以在View中使用puts方法将信息输出到服务器控制台。您应该能够在View中的任何位置使用Haml执行以下操作:-puts@my_variable.inspect 关于ruby-on-rails-如何在我的R
ruby - 如果指定键的值在数组中相同，如何合并哈希 - 2
我有一个这样的哈希数组:[{:foo=>2,:date=>Sat,01Sep2014},{:foo2=>2,:date=>Sat,02Sep2014},{:foo3=>3,:date=>Sat,01Sep2014},{:foo4=>4,:date=>Sat,03Sep2014},{:foo5=>5,:date=>Sat,02Sep2014}]如果:date相同，我想合并哈希值。我对上面数组的期望是:[{:foo=>2,:foo3=>3,:date=>Sat,01Sep2014},{:foo2=>2,:foo5=>5:date=>Sat,02Sep2014},{:foo4=>4,:dat
ruby - 如何在 Grape 中定义哈希数组？ - 2
我使用Ember作为我的前端和GrapeAPI来为我的API提供服务。前端发送类似:{"service"=>{"name"=>"Name","duration"=>"30","user"=>nil,"organization"=>"org","category"=>nil,"description"=>"description","disabled"=>true,"color"=>nil,"availabilities"=>[{"day"=>"Saturday","enabled"=>false,"timeSlots"=>[{"startAt"=>"09:00AM","endAt"=>
ruby - 在哈希的键数组中追加元素 - 2
查看我的Ruby代码:h=Hash.new([])h[0]=:word1h[1]=h[1]输出是:Hash={0=>:word1,1=>[:word2,:word3],2=>[:word2,:word3]}我希望有Hash={0=>:word1,1=>[:word2],2=>[:word3]}为什么要附加第二个哈希元素(数组)？如何将新数组元素附加到第三个哈希元素？最佳答案如果您提供单个值作为Hash.new的参数(例如Hash.new([])，完全相同的对象将用作每个缺失键的默认值。这就是您所拥有的，那是你不想要的。您可以改用
ruby-on-rails - 如何在 Gem 中获取 Rails 应用程序的根目录 - 2
是否可以在应用程序中包含的gem代码中知道应用程序的Rails文件系统根目录？这是gem来源的示例:moduleMyGemdefself.included(base)putsRails.root#returnnilendendActionController::Base.send:include,MyGem谢谢，抱歉我的英语不好最佳答案我发现解决类似问题的解决方案是使用railtie初始化程序包含我的模块。所以，在你的/lib/mygem/railtie.rbmoduleMyGemclassRailtie使用此代码，您的模块将在
ruby-on-rails - 事件管理员日期过滤器日期格式自定义 - 2
是否有简单的方法来更改默认ISO格式(yyyy-mm-dd)的ActiveAdmin日期过滤器显示格式？最佳答案您可以像这样为日期选择器提供额外的选项，而不是覆盖js:=f.input:my_date,as::datepicker,datepicker_options:{dateFormat:"mm/dd/yy"} 关于ruby-on-rails-事件管理员日期过滤器日期格式自定义，我们在StackOverflow上找到一个类似的问题： https://s