草庐IT

【可视化分析案例】用python分析B站Top100排行榜数据

一、数据源之前,我分享过一期爬虫,用python爬取Top100排行榜:最终数据结果,是这样的:TOP100数据在此数据基础上,做python可视化分析。二、数据读取首先,读取数据源:#读取csv数据df=pd.read_csv(csv)三、数据概览用shape查看数据形状:#查看数据形状df.shape用head查看前n行:#查看前5行df.head(5)用info查看列信息:#查看列信息df.info()用describe查看统计性分析:#描述性统计分析df.describe()描述性统计四、数据清洗查看是否存在空值:#查看空值df.isna().any()查看空值每列都是False,没有

【可视化分析案例】用python分析B站Top100排行榜数据

一、数据源之前,我分享过一期爬虫,用python爬取Top100排行榜:最终数据结果,是这样的:TOP100数据在此数据基础上,做python可视化分析。二、数据读取首先,读取数据源:#读取csv数据df=pd.read_csv(csv)三、数据概览用shape查看数据形状:#查看数据形状df.shape用head查看前n行:#查看前5行df.head(5)用info查看列信息:#查看列信息df.info()用describe查看统计性分析:#描述性统计分析df.describe()描述性统计四、数据清洗查看是否存在空值:#查看空值df.isna().any()查看空值每列都是False,没有

芒果TV商品意图识别top3思路分享

比赛简介主办方提供了商品名称和用户query数据供选手进行模型训练,希望选手能够设计出一套高效、精准的商品意图识别模型,以帮助提升电商搜索的效果,改善顾客的购买体验。其中提供了两份数据,一个是goods_data.csv是商品名称数据,一个是query_data.csv是用户query数据,共39470条前期我们做的尝试比较多,后面差不多烂尾了,庆幸b榜还在第一页,下面介绍下我们队伍的比赛思路。数据处理由于本赛题数据分类一个质量比较高的goods数据,一个是用户场景下的query数据(相对有噪音),前期我们尝试单独训练goods或者query数据效果不是很好,goods数据容易过拟合,quer

芒果TV商品意图识别top3思路分享

比赛简介主办方提供了商品名称和用户query数据供选手进行模型训练,希望选手能够设计出一套高效、精准的商品意图识别模型,以帮助提升电商搜索的效果,改善顾客的购买体验。其中提供了两份数据,一个是goods_data.csv是商品名称数据,一个是query_data.csv是用户query数据,共39470条前期我们做的尝试比较多,后面差不多烂尾了,庆幸b榜还在第一页,下面介绍下我们队伍的比赛思路。数据处理由于本赛题数据分类一个质量比较高的goods数据,一个是用户场景下的query数据(相对有噪音),前期我们尝试单独训练goods或者query数据效果不是很好,goods数据容易过拟合,quer

关于linux:valgrind、massif、top、pmap的比较

Comparingvalgrind,massif,top,andpmap我正在尝试了解我的应用程序是否泄漏。在运行我的应用程序时,我会定期运行pmap并观察:1234mapped:488256K  writeable/private:90144K  shared:0Kmapped:488260K  writeable/private:101912K  shared:0Kmapped:488256K  writeable/private:102708K  shared:0Kmapped:488260K  writeable/private:105112K  shared:0K我运行top并观察:

关于linux:valgrind、massif、top、pmap的比较

Comparingvalgrind,massif,top,andpmap我正在尝试了解我的应用程序是否泄漏。在运行我的应用程序时,我会定期运行pmap并观察:1234mapped:488256K  writeable/private:90144K  shared:0Kmapped:488260K  writeable/private:101912K  shared:0Kmapped:488256K  writeable/private:102708K  shared:0Kmapped:488260K  writeable/private:105112K  shared:0K我运行top并观察:

关于scala:Spark:在(键,值)RDD中获取每个键的前K个频繁值的有效方法?

Spark:EfficientwaytogettopKfrequentvaluesperkeyin(key,value)RDD?我有一个(key,value)对的RDD。我需要根据每个键的频率获取前k个值。我知道最好的方法是使用combineByKey。目前这里是我的combineByKey组合器的样子1234567891011121314151617objectTopKCount{  //TopKCountcombiners  valk:Int=10  defcreateCombiner(value:String):Map[String,Long]={   Map(value->1L)  }

关于scala:Spark:在(键,值)RDD中获取每个键的前K个频繁值的有效方法?

Spark:EfficientwaytogettopKfrequentvaluesperkeyin(key,value)RDD?我有一个(key,value)对的RDD。我需要根据每个键的频率获取前k个值。我知道最好的方法是使用combineByKey。目前这里是我的combineByKey组合器的样子1234567891011121314151617objectTopKCount{  //TopKCountcombiners  valk:Int=10  defcreateCombiner(value:String):Map[String,Long]={   Map(value->1L)  }