草庐IT

数理统计

全部标签

常用【描述性统计指标】含义(by python)

统计学有时候会被误解,好像必须有大量的样本数据,才能使统计结果有意义。这会让我们觉得统计学离我们的日常生活很遥远。其实,如果数据的准确度高的话,少量的样本数据同样能反映出真实的情况。比如,很多国家选举时不断做的民意调查,一般做到有效样本1600多份就够了,不管你是几千万人的小国家,还是数亿人的大国,调查的样本数都差不多。所以,正确地进行统计,即使样本数据量不大,我们也可以从中提取知识,避免被误导。不过,在此之前,我们要能够清楚地理解统计数据和各种统计指标的含义,以及它们在区分真相和误导时的作用。1.统计是什么统计是个很笼统的概念,它涉及到很多事情,简单来定义它的话,必然会掩盖很多细节。统计学可

Hadoop学习总结(MapRdeuce的词频统计)

   MapRdeuce编程示例——词频统计一、MapRdeuce的词频统计的过程二、编程过程1、Mapper组件WordcountMapper.javapackagecom.itcast.mrdemo;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Mapper;importjava.io.IOException;/***Map需要指定四个泛型,用来限定

【华为OD机考 统一考试机试C卷】 全量和已占用字符集 、字符串统计(C++ Java JavaScript Python)

华为OD机考:统一考试C卷+D卷+B卷+A卷2023年11月份,华为官方已经将华为OD机考:OD统一考试(A卷/B卷)切换到OD统一考试(C卷)和OD统一考试(D卷)。根据考友反馈:目前抽到的试卷为B卷或C卷/D卷,其中C卷居多,按照之前的经验C卷部分考题会复用A卷,B卷题,博主正积极从考过的同学收集C卷和D卷真题。可以先继续刷B卷,C卷和D卷的题目会放在现在大家购买的专栏内,不需要重新购买,请大家放心。专栏:2023华为OD机试(A卷+B卷+C卷+D卷)(C++JavaJSPy)华为OD面试真题精选:华为OD面试真题精选在线OJ:点击立即刷题,模拟真实机考环境华为OD机考B卷C卷华为OD机考

【scipy 基础】--统计分布

scipy.stats子模块包含大量的概率分布、汇总和频率统计、相关函数和统计测试、掩蔽统计、核密度估计、准蒙特卡罗功能等等。这个子模块可以帮助我们描述和分析数据,进行假设检验和拟合统计模型等。1.主要功能具体来说,scipy.stats子模块包括以下主要功能:类别说明连续统计分布包括正态分布、指数分布、卡方分布、t分布、F分布等常见的连续概率分布。这些分布都有各自的密度函数、分布函数、累积函数、随机生成器和统计特性等。分段统计分布包括伯努利分布、二项分布、泊松分布、正态分布、指数分布等常见的离散概率分布。这些分布都有各自的密度函数、分布函数、累积函数、随机生成器和统计特性等。统计测试包括t检

郝志峰《概率论与数理统计》期末复习笔记

目录前言 第一章        概率论的基础概念知识大纲随机试验随机事件事件概率等可能概率模型第二章    概率论的基本定理知识大纲条件概率独立性全概率公式贝叶斯公式第五章    多维随机变量及其分布 知识大纲二维随机变量两种二维随机变量边缘分布和条件分布边缘分布定义离散型边缘分布连续型边缘分布 条件分布定义离散型条件分布连续型条件分布相互独立的随机变量两个随机变量的函数分布第六章    样本及抽样分布知识大纲 总体与样本统计量统计三大抽样分布标准正态分布X~N(0,1)卡方分布 t分布样本均值和方差第七章        参数估计知识大纲点估计 矩估计法 极大似然估计法估计量的评选标准区间估计

输入字符串,统计使用频率,并根据频率创建哈夫曼树

#include#include#defineOK1#defineERROR0#defineOVERFLOW-2#defineMAXSIZE100typedefintStatus;intnum[256]={0},H[256]={0};//哈夫曼树的存储表示typedefstruct{   intweight;        //结点权值    intperent,lchild,rchild; //结点的双亲,左孩子,右孩子的下标  }HTNode,*HuffmanTree;    //动态分配数组存储哈夫曼树   //构造哈夫曼树中的Select函数  voidSelect(HuffmanTr

MapReduce词频统计(一)

1.词频统计任务要求首先,在Linux系统本地创建两个文件,即文件wordfile1.txt和wordfile2.txt。在实际应用中,这两个文件可能会非常大,会被分布存储到多个节点上。但是,为了简化任务,这里的两个文件只包含几行简单的内容。需要说明的是,针对这两个小数据集样本编写的MapReduce词频统计程序,不作任何修改,就可以用来处理大规模数据集的词频统计。创建wordfile1.txt文件。cd~vimwordfile1.txt文件wordfile1.txt的内容如下:IloveSparkIloveHadoop创建wordfile2.txt文件。vimwordfile2.txt文件w

【猴博士】概率论与数理统计 笔记总结(完结)

前言视频在B站看视频在MOOC看是笔记,可能不全。其他没写的章节是因为我考试不考…就没看了。概率论第一章:随机事件和概率【概率论与数理统计】猴博士笔记p1-p2古典概型、几何概型【概率论与数理统计】猴博士笔记p3-4事件的概率、事件的独立性【概率论与数理统计】猴博士笔记p5-7条件概率,全概率公式,贝叶斯公式第二章:离散型随机变量【概率论与数理统计】猴博士笔记p8-10一维、二维离散型求分布律、二维离散型求边缘分布律【概率论与数理统计】猴博士笔记p11-14一维、二维离散型求分布函数和期望、方差第三章:连续型随机变量【概率论与数理统计】猴博士笔记p15-16一、二维连续型求概率【概率论与数理统

git代码行统计

本文介绍统计项目代码行的方式,包括使用gitlog统计、gitls-files统计和使用linux命令行方式统计。一、使用gitlog统计1.统计所有代码行数当前代码都存放在git仓库下,当需进行代码行数统计时,让开发人员在代码路径下运行如下指令,可统计出当前仓库中的代码行数: gitlog--pretty=tformat:--numstat|awk '{add+=$1;subs+=$2;loc+=$1-$2}END{printf"addedlines:%s,removedlines:%s,totallines:%s\n",add,subs,loc}'2.统计一定时间内产生的代码行数此处提供时

拿捏SQL:以“统计连续登录天数超过3天的用户“为例拿捏同类型SQL需求

文章目录@[TOC](文章目录)一、介绍案例:以"统计连续登录天数超过3天的用户"为需求。数据准备方案1:常规思路针对对数据user_id分组,根据用户的活动日期排序用登录日期与rn求date_sub,得到的差值日期如果是相等的,则说明这两天肯定是连续的根据user_id和日期差sub_date分组,登录次数即为分组后的count(1)方案2:使用lag和lead函数使用LEAD和LAG函数求出前后1天日期针对每个用户,进行前一天和后一天的日期与当期日期相差值=1则属于连续登录。针对用户分组,datediff函数求出最大活动时间和最小活动时间的天数,求出>=3天的用户对比方案1和方案2作为大数