草庐IT

B站基于ClickHouse的海量用户行为分析应用实践

一、背景介绍 数据驱动理念已被各行各业所熟知,核心环节包括数据采集、埋点规划、数据建模、数据分析和指标体系构建。在用户行为数据领域,对常见的多维数据模型进行信息提炼和模型整合,可以形成一套常见的数据分析方法来发现用户行为的内在联系,能更好洞察用户的行为习惯和行为规律,帮助企业挖掘用户数据的商业价值。 行业内最早可追溯到GoogleAnalytics埋点分析工具,国内较早开始这方面研究的是百度大数据分析平台;随着15年后国内大数据兴起,神策的用户行为分析平台、GrowthingIO的增长平台等独立数据分析平台公司相继成立;18年后一些发展较快的大厂经过几年数据积累也有了自己的分析平台,例如美团点

B站基于ClickHouse的海量用户行为分析应用实践

一、背景介绍 数据驱动理念已被各行各业所熟知,核心环节包括数据采集、埋点规划、数据建模、数据分析和指标体系构建。在用户行为数据领域,对常见的多维数据模型进行信息提炼和模型整合,可以形成一套常见的数据分析方法来发现用户行为的内在联系,能更好洞察用户的行为习惯和行为规律,帮助企业挖掘用户数据的商业价值。 行业内最早可追溯到GoogleAnalytics埋点分析工具,国内较早开始这方面研究的是百度大数据分析平台;随着15年后国内大数据兴起,神策的用户行为分析平台、GrowthingIO的增长平台等独立数据分析平台公司相继成立;18年后一些发展较快的大厂经过几年数据积累也有了自己的分析平台,例如美团点

月活 12.8 亿的微信,海量请求下是如何防止崩溃的?

​一、背景最近在研究过载保护,微信是一个国民级的应用,月活用户过10亿,而且经常过年过节消息量暴增,服务很容易出现过载,但微信的服务一直比较稳定,他们是怎么做的呢?本文以微信2018年发表于Socc会议上的文章,《OverloadControlforScalingWechatMicroservices》为基础,介绍了微信大规模微服务的过载保护策略,其中很多方法很有借鉴意义。下面是对这篇文章做的一些解读。二、过载保护基本概念1、什么是服务过载?服务过载就是服务的请求量超过服务所能承受的最大值,从而导致服务器负载过高,响应延迟加大,用户侧表现就是无法加载或者加载缓慢,这会引起用户进一步的重试,服务

月活 12.8 亿的微信,海量请求下是如何防止崩溃的?

​一、背景最近在研究过载保护,微信是一个国民级的应用,月活用户过10亿,而且经常过年过节消息量暴增,服务很容易出现过载,但微信的服务一直比较稳定,他们是怎么做的呢?本文以微信2018年发表于Socc会议上的文章,《OverloadControlforScalingWechatMicroservices》为基础,介绍了微信大规模微服务的过载保护策略,其中很多方法很有借鉴意义。下面是对这篇文章做的一些解读。二、过载保护基本概念1、什么是服务过载?服务过载就是服务的请求量超过服务所能承受的最大值,从而导致服务器负载过高,响应延迟加大,用户侧表现就是无法加载或者加载缓慢,这会引起用户进一步的重试,服务

亿万级海量数据去重软方法,spark/hive/flink/mr通用

一、场景描述:小强作为一名数据工程师,给予hadoop生态,经常会接到类似uv的去重统计。对于这种需求,一般的数据工程师撸起袖子直接干!一般情况下不会有问题。某一天,你公司突然业务发展发展起来,数据量慢慢暴涨,你会突然发现之前的countdistinct去重经常oom或是龟速出数据。上来一股脑加内存!加!果断加!某一天你老板要你在原来按天的uv加一个月uv、年uv,这时你慌了。只会说“老板!加机器,内存不够!”。老板说:“算个uv你就想骗我钱?你明天不用来上班了!”打不死的小强这时拼命百度,在网上找到许多神乎其神的方法…二、常用方法1.优化sql小强把原有的countdistinct去重改成了

亿万级海量数据去重软方法,spark/hive/flink/mr通用

一、场景描述:小强作为一名数据工程师,给予hadoop生态,经常会接到类似uv的去重统计。对于这种需求,一般的数据工程师撸起袖子直接干!一般情况下不会有问题。某一天,你公司突然业务发展发展起来,数据量慢慢暴涨,你会突然发现之前的countdistinct去重经常oom或是龟速出数据。上来一股脑加内存!加!果断加!某一天你老板要你在原来按天的uv加一个月uv、年uv,这时你慌了。只会说“老板!加机器,内存不够!”。老板说:“算个uv你就想骗我钱?你明天不用来上班了!”打不死的小强这时拼命百度,在网上找到许多神乎其神的方法…二、常用方法1.优化sql小强把原有的countdistinct去重改成了

海量运维常用技术之--HAProxy网站负载均衡应用

近期朋友刘鑫的网站成功上线并运营了,PV达到了亿级/日的访问量,最前端用的HAProxy+Keepalived双机作的负载均衡器/反向代理,整个网站非常稳定;这让我更坚定了HAProxy+Keepalived作为Web最前端的负载均衡器网站架构设计方案,在这里我也有一点要跟大家申明下:很多朋友担心软件级别的负载均衡在高并发流量冲击下的稳定情况,事实是我们通过成功上线的许多网站发现,HAProxy作为前端的负载均衡的稳定性是非常好的,宕机的可能性微乎其微,由于HAProxy我们多用于7层负载均衡,在大流量的冲击下,发现确实对CPU有一定消耗,这里推荐大家用DELL710|910服务器。另外,HA

海量运维常用技术之--HAProxy网站负载均衡应用

近期朋友刘鑫的网站成功上线并运营了,PV达到了亿级/日的访问量,最前端用的HAProxy+Keepalived双机作的负载均衡器/反向代理,整个网站非常稳定;这让我更坚定了HAProxy+Keepalived作为Web最前端的负载均衡器网站架构设计方案,在这里我也有一点要跟大家申明下:很多朋友担心软件级别的负载均衡在高并发流量冲击下的稳定情况,事实是我们通过成功上线的许多网站发现,HAProxy作为前端的负载均衡的稳定性是非常好的,宕机的可能性微乎其微,由于HAProxy我们多用于7层负载均衡,在大流量的冲击下,发现确实对CPU有一定消耗,这里推荐大家用DELL710|910服务器。另外,HA

海量数据解决思路之BitMap

一、概述 本文将讲述Bit-Map算法的相关原理,Bit-Map算法的一些利用场景,例如BitMap解决海量数据寻找重复、判断个别元素是否在海量数据当中等问题.最后说说BitMap的特点已经在各个场景的使用性。二、Bit-Map算法先看看这样的一个场景:给一台普通PC,2G内存,要求处理一个包含40亿个不重复并且没有排过序的无符号的int整数,给出一个整数,问如果快速地判断这个整数是否在文件40亿个数据当中?问题思考:  40亿个int占(40亿*4)/1024/1024/1024大概为14.9G左右,很明显内存只有2G,放不下,因此不可能将这40亿数据放到内存中计算。要快速的解决这个问题最好