草庐IT

百分之百

全部标签

algorithm - 如何计算布隆过滤器百分比

我正在浏览HadoopInAction并遇到了关于BloomFilter的解释,它说:Thefalsepositiverateisapproximatedbytheequation(1–exp(-kn/m))kwherekisthenumberofhashfunctionsused,misthenumberofbitsusedtostoretheBloomfilter,andnisthenumberofelementstobeaddedtotheBloomfilter.Inpractice,mandnaredeterminedbytherequirementofthesystem,an

java - Hadoop Job 在最后几个百分比时真的很慢吗?

我一直在Hadoop集群版本0.20.2上运行作业,直到最近一切都正常,没有任何原因,也没有任何错误,maptask的最后几个百分比比作业的其余部分花费的时间长得多,其中最后2%需要30秒,其余工作不到30秒。无论输入大小如何,现在所有作业都会发生这种情况这是一个输入数据为4GB的示例,在此问题之前整个作业从提交到完成需要37秒,但现在需要一分钟多:14/08/0120:57:12INFOinput.FileInputFormat:Totalinputpathstoprocess:114/08/0120:57:12INFOmapred.JobClient:Runningjob:job_

sql - 如何获得每天 2 列总计数的百分比?

我有以下查询:SELECTACCT_OT,COUNT(CASEWHENBR_CDlike'%0%'THEN1ELSENULLEND)ASnew,COUNT(CASEWHENBR_CDlike'%1%'THEN1ELSENULLEND)ASold,FROMMSTR_TBLwhereACCT_OTbetween'2017-10-23'and'2017-10-25'GROUPBYACCT_OT;我希望能够在同一个查询中添加另一列,以显示旧/新的百分比。比如10/23,new是10,old是1,那么第三列就是10%。希望大家帮帮忙。 最佳答案

java - 在 Hadoop 中获取百分比

我有一个项目,我需要获取一个包含多列的逗号分隔文件,并提取公司名称、客户交互的结果以及发生的次数。然后我需要计算不良交互与良好交互的百分比我正在使用Hadoop和Java。我有一个可用的Map和Reduce,它为我提供了公司名称以及有多少好的和坏的交互。我的问题是,我找不到让Hadoop划分好坏给我一个百分比的方法。大多数公司没有任何不良互动。这是我的mappublicclassTermProjectMapperextendsMapper{privatefinalstaticIntWritableone=newIntWritable(1);privateTextword=newText

html浏览器进行缩放百分比 界面和文字保持不变

400%效果50%效果!DOCTYPEhtml>htmllang="en">head>metacharset="UTF-8">metahttp-equiv="X-UA-Compatible"content="IE=edge">metaname="viewport"content="width=device-width,initial-scale=1.0">title>Document/title>/head>style>html,body{margin:0;padding:0;width:100%;height:100%;}#app{width:100%;height:100%;overflo

sql - 获取 Hive 中所有列的 NULL 百分比

我想获取Hive表中NULL值的百分比。有没有一种简单的方法可以做到这一点而不必枚举查询中的所有列名?在这种情况下,大约有50k行和20列。提前致谢!类似于:SELECTcount(each_column)/count(*)FROMTABLE_1WHEREeach_column=NULL; 最佳答案 如果您使用代码执行此操作,则需要列出列。这是一种方法:selectavg(casewhencol1isnullthen1.0else0.0end)ascol1_null_p,avg(casewhencol2isnullthen1.0el

java - 我正在考虑编写一个 Accumulo 迭代器来返回一个表的百分位数的随机样本

我正在考虑编写一个Accumulo迭代器来返回一个表的百分位数的随机样本。如果有任何建议,我将不胜感激。谢谢,克里斯 最佳答案 稍微扩展BenTse的答案以允许可变数量的选择:importjava.util.Random;importorg.apache.accumulo.core.data.Key;importorg.apache.accumulo.core.data.Value;importorg.apache.accumulo.core.iterators.Filter;publicclassRandomAcceptFilte

scala - 每个列值的 Spark 计数和百分比异常处理和加载到 Hive DB

在下面的ScalaSpark代码中,我需要找到不同列的计数及其值的百分比。为此,我需要对每一列使用withColumn方法,例如date、usage、payment、dateFinal,usageFinal,paymentFinal。对于每个计算,我都需要使用withColumn来获取总和和聚合。有什么方法可以让我不用写,.withColumn("SUM",sum("count").over()).withColumn("fraction",col("count")/sum("count").over()).withColumn("Percent",col("fraction")*10

hadoop - Pig Latin 中的百分位数计算

我正在尝试使用Pig计算百分位数。我需要使用属性对数据进行分组,并根据销售额计算组中每个元组的百分位数。我发现没有内置的Pig函数可以执行此操作。想知道以前是否有人遇到过类似的问题可以帮助我。 最佳答案 如JaiPrakash所述,您可以使用UDFStreamingQuantile来自ApacheDataFu图书馆。由于我已经准备好示例,因此我将其复制到此处。输入item1,234item1,324item1,769item2,23item2,23item2,45PIG脚本registerdatafu-1.2.0.jar;defin

hadoop - hadoop Controller 如何计算完成工作的百分比?

我看到每当我运行MapReduce任务时,hadoop作业都会向我显示Map和Reduce任务完成的百分比。我知道映射器和缩减器都以分布式方式运行,并且可以向Controller报告它们已经处理了多少。但是Controller如何知道要处理的数据总量呢?如果Controller试图计算出所有输入文件的大小,我认为这将是低效的。它是某种粗略的近似值吗? 最佳答案 我没有阅读hadoop中与这部分相关的所有代码。不过有些想了想,希望对你有帮助map任务完成百分比计算:当一个slave机器完成一个map任务时,会通知master机器,这样