草庐IT

采样位数

全部标签

hadoop - Pig 中元组值的中位数?

我有一个包含一些数字的元组。例如:(a:17,b:14,c:123,d:23,e:37)找到该元组中数字的中位数的最佳方法是什么?因此,对于上面的一袋元组,我应该得到一袋单值元组,其中单个值是其中一个输入元组中值的中值。像这样:x=LOAD'/path/to/tuples.csv'USINGPigLoader(',')AS(a:int,b:int,c:int,d:int,e:int);y=FOREACHxGENERATEMEDIAN(a,b,c,d,e);我只是不知道如何构建上面的MEDIAN函数。我希望我不需要UDF! 最佳答案

hadoop - 配置单元的采样问题

“all_members”是hive中的一个表,有10m行和1列:“membership_nbr”。我想采样3000行。这就是我所做的:hive>createtablesample_membersasselect*fromall_memberslimit1;hive>insertoverwritetablesample_membersselectmembership_nbrfromall_memberstablesample(3000rows);hive>selectcount(*)fromsample_members;确定45000如果我用300行替换3000行,结果不会改变我做错了

sql - impala 长度小于 8 位数字

我有一些客户编号,其中一些长度超过8位。我怎样才能标记它们,使它们不被计算在内?我尝试了以下方法:SELECTt1.updte_userasstaff_number,(CASEWHEN(CAST(t1.updte_user)ASINT)Integernotnullcheck((CAST(t1.updte_user)ASINT)between0and99999999THEN1else0)endasTRUE_STAFFfromoldast1;我需要改变什么? 最佳答案 这个怎么样?selectstaff_number,(casewhen

DAC的通道数与采样率、数据率、插值系数的关系

一、问题背景    第一次接触DAC,看数据手册的时候,有关通道数和插值系数大小的关系看不懂,便想一探究竟。 二、解决方案1、基本概念        数据率(bps):每秒钟传输的比特数量,计算公式:S=1/T,T为传输一个比特所需要的时间。这里我们指通道传输数据的速率,lanerate。        采样率:每秒从信号中提取的信号的个数。这里我们指DAC的采样速率。2、基本公式这是AD9162(人家实际是个DAC,只不过是AD公司的)数据手册上通道数和各个rate之间的换算关系。DACRate可以理解为采样率。不同DAC的换算关系不同,但是基本原理是一样的。我们可以这样理解这三者之间的关系

hadoop - 多列的百分位数

我有一个包含大约200-250列的表格,我想计算其中每一列的百分位数。Hive给出函数Percentile(int_exp,p)返回列int_exp的第p个百分位值。但是对其余250列运行相同的查询似乎是多余的。有没有办法一次性找到所有列的百分位数? 最佳答案 不幸的是,您将不得不为每一列调用百分位数函数。一个建议是您可以使用某种其他语言(例如Java、Ruby、Python等)动态生成此查询 关于hadoop-多列的百分位数,我们在StackOverflow上找到一个类似的问题:

hadoop - Apache Pig 分位数分组

我正在努力寻找解决Pig分组问题的方法。目前我有一个看起来像的数据集;Group|Height|WeightA|96.5|110.2B|88.2|122.5A|94.1|100.8B|84.1|115.6我正在使用DataFu库中的StreamingQuantile方法来计算高度变量的分位数(第25、50...eclipse刻)。目前它有效,但我还需要计算每个组的AVG权重+它们的分位数;所以它看起来像这样;A|Quantile1|88.5(height)|134.4(avgweight)A|Quantile2|125.3(height)|156.2(avgweight)etc....

hadoop - pig 脚本对 10 block 训练数据进行采样,pig 脚本被卡住了

背景我有一个数据高度不平衡的二元分类任务。具体来说,有标签0的数据比标签1的数据多得多。为了解决这个问题,我计划进行子采样标签0的数据与标签1的数据的大小大致匹配。我在pig脚本中做了这个。代替只采样一block训练数据,我这样做了10次以生成10个数据block来训练10个分类器类似于装袋以减少方差。示例pig脚本-----------------------------------generatetrainingchunki-----------------------------------subsamplingdatawithlabel0labelZeroTrainingDat

java - 在 Hadoop 中实现采样和数据挖掘算法

当前的实现涉及对大型输入事务文件进行抽样,然后最终将“FP增长算法”应用于该抽样数据以进行数据挖掘。但是,它有其局限性,我想在更大范围内实现它。事务文件根据以下采样方法(基于用户响应)进行采样:随机抽样系统抽样分层抽样整群抽样从抽样交易(FAST)算法中寻找关联。目标是在Hadoop中实现它以进行并行处理并支持大型输入数据文件。任何指示我如何在Hadoop或任何其他开源分布式处理框架中实现这一点? 最佳答案 这里的问题主要是算法问题,而不是技术问题。我们需要找到算法的并行方法,然后将其转化为MapReduce范式。只有这样我们才能使

Hadoop:用多棵树(采样说 N,说 x RandomTree)训练大数据(以 GB 为单位)并测试

我要写MapReduce(可能是多轮!)到1.SampleNrecordsfromLargedata-forsayXRandomTree2.Traineachtree(totallyX)3.Andthentestrecordsonallthesetrees依次,forX=0to199:-sampleNrecordsfromLargedata-Trainthistree-testforalltestrecords这是我的作业题,所以我只需要想法..!我不确定在mapper中,我可以准确地采样N条记录并生成200个小的训练数据文件?测试所有200个第一个选项上的每条记录我想到每个reduc

hadoop - 在 Hive 中按列采样

给定一个Hive表如下:>descT;dim1stringdim2stringdim3stringvalue1intvalue2int我尝试按组(dim1,dim2,dim3)随机抽样1,000行。一种方法是:#bashfordim1indim1_1,dim1_2;dofordim2indim2_1,dim2_2;dofordim3indim3_1,dim3_2;dohive-e"select*fromTwheredim1=$dim1anddim2=$dim2anddim3=$dim3limit1000;"donedonedone然后会依次执行2^3=8个查询。有没有更有效的方法?