草庐IT

statistics

全部标签

java - Hadoop 文件系统统计信息 (FileSystem.Statistics)

似乎缺少关于hadoopfilesystem.statistics类的文档。“读取的字节数”和“写入的字节数”是什么意思,这些计数器是如何实现的? 最佳答案 Whatismeantby"bytesread"and"byteswritten"根据Hadoop:TheDefinitiveGuideFilesystembytesread-每个文件系统通过map和reduce任务读取的字节数。每个文件系统都有一个计数器:文件系统可能是本地、HDFS、S3、KFS等。写入的文件系统字节数-每个文件系统通过map和reduce任务写入的字节数。

statistics - 使用 hadoop 进行简单统计计算的示例

我想扩展现有的聚类算法以处理非常大的数据集,并以现在可以使用数据分区计算的方式重新设计它,这为并行处理打开了大门。我一直在研究Hadoop和Pig,我认为一个很好的实用起点是计算我的数据的基本统计数据,即算术平均值和方差。我已经用谷歌搜索了一段时间,但也许我没有使用正确的关键字,而且我还没有真正找到任何适合进行此类计算的入门资料,所以我想我会在这里问一下。任何人都可以指出一些关于如何使用hadoop计算均值和方差的好示例,和/或提供一些示例代码。谢谢 最佳答案 Piglatin有一个关联的可重用代码库,称为PiggyBank,它具有

ios - DYLD_PRINT_STATISTICS 未显示任何内容

从静态库迁移到框架后,我正在尝试分析应用程序启动。我们有30个左右的框架(fyi:cocoapods)所以我想检查它是否不影响性能。团队中的轶事测试表明它不是,但我也想要一些数字!我已经添加了环境变量DYLD_PRINT_STATISTICS和DYLD_PRINT_LIBRARIES来查看链接器在做什么,但我得到的所有输出都来自DYLD_PRINT_LIBRARIES变量。我可以看到框架正在正确加载,但没有从中获得任何统计信息。我已经尝试重新启动设备以确保框架不在内存中,但这没有帮助。关于为什么我没有从DYLD_PRINT_STATISTICS获得任何输出的任何其他建议?

statistics - 找到具有相同负载的 TCP 数据包的概率?

今天早些时候,我与一位开发人员进行了讨论,重新识别在具有相同负载的特定接口(interface)上发出的TCP数据包。他告诉我,由于TCP数据包在系统级构建的方式,找到具有相同负载的TCP数据包(即使多次发送相同数据)的可能性非常低。我知道这可能是由于系统的MTU设置(通常为1500字节)等原因造成的,但我真正在看什么样的概率统计数据?是否有任何特定协议(protocol)可以更轻松地识别匹配的有效负载? 最佳答案 是在tcp上运行的协议(protocol)定义了负载的唯一性,而不是tcp协议(protocol)本身。例如,您可能天

android - 使用 API 从 Google Play 开发者那里获取统计信息

我负责开发一个网站,该网站应该能够向客户显示来自Apple应用商店和GooglePlay商店的统计数据,以便他们轻松了解正在发生的事情。我已经找到了一些获取AppStore数据的方法,但GooglePlay开发者的统计数据似乎更难获取。我听说过抓取,但这不是一个很好的解决方案,因为每当开发人员控制台获得重大更新时,它可能会被破坏。我正在寻找可以像Andlytics或AppAnnie一样工作的东西,例如,我可以使用AJAX或其他东西(可能是JSON格式?)获取数据并将其放入数据库。目前,我还没有找到任何可靠的解决方案(除了抓取,这似乎是一种不稳定的方法),而且这个问题已经被问过一段时间了

android - 使用 API 从 Google Play 开发者那里获取统计信息

我负责开发一个网站,该网站应该能够向客户显示来自Apple应用商店和GooglePlay商店的统计数据,以便他们轻松了解正在发生的事情。我已经找到了一些获取AppStore数据的方法,但GooglePlay开发者的统计数据似乎更难获取。我听说过抓取,但这不是一个很好的解决方案,因为每当开发人员控制台获得重大更新时,它可能会被破坏。我正在寻找可以像Andlytics或AppAnnie一样工作的东西,例如,我可以使用AJAX或其他东西(可能是JSON格式?)获取数据并将其放入数据库。目前,我还没有找到任何可靠的解决方案(除了抓取,这似乎是一种不稳定的方法),而且这个问题已经被问过一段时间了

python - python 中的 numpy var() 和 statistics variance() 有什么区别?

我正在尝试一个Dataquest练习,我发现我得到的方差对于两个包是不同的。例如[1,2,3,4]fromstatisticsimportvarianceimportnumpyasnpprint(np.var([1,2,3,4]))print(variance([1,2,3,4]))//1.25//1.6666666666666667练习的预期答案是用np.var()计算的编辑我猜它必须这样做,后者是样本方差而不是方差。谁能解释一下区别? 最佳答案 使用这个print(np.var([1,2,3,4],ddof=1))1.66666

statistics - 在 Redis 中存储时间相关指标的好方法是什么?

我有一些指标(例如登录用户数、SQL查询或其他),我想定期收集一些与时间相关的统计数据。例如,我想知道在某个特定年、月、周、日甚至小时内有多少用户注册。我认为Redis可能是一个不错的选择。但我想不出存储此类统计数据的好策略。我唯一的想法是将独立的计数器存储数天、数周等,然后一次将它们全部碰撞。你是怎么做到的?我需要一个好技巧。或者也许Redis不适合我的任务。 最佳答案 如果您只需要对每个周期进行计数,那么您建议的多计数器方法是一个很好的方法。在单个流水线事务中递增5个计数器的时间复杂度为O(1),而集合操作的时间复杂度为O(lo

statistics - 多少次 HINCRBY 调用是合理的?

我正在尝试重新发明轮子并将一些统计数据存储在Redis中。我正在考虑急切聚合,并在每个新事件发生后立即递增所有相关计数器(每秒可能发生几次)。每个事件需要调用HINCRBY5-50次,我的目标是一开始每秒调用5-100个事件。Redis是不是太多了?如果是,我是否应该设定一些下限(每个事件10次?只有一次?)?如果不是,它能否扩展这些参数中的任何一个(我对扩展到1000个事件更感兴趣?10000?)?显然,我还必须收集垃圾。我计划通过为每个事件所需的每个散列调用EXPIRE来做到这一点(不超过2-5次,因为一些计数器在同一个散列中)。可以吗? 最佳答案

c++ - Linux C++ : Accessing network statistics

我正在用C++为Linux开发一个网络统计程序。我想访问有关当前网络连接的一些统计信息。例如:丢包,传输的字节数(上传和下载),当前网络负载(上传和下载),知道如何访问此类信息吗?所以,我一直在尝试使用de/proc来实现我的目标,我们可以找到很多信息,但是缺少一些我需要的信息。我正在考虑开发一个简单的C++混杂应用程序,使用LibPcap,捕获我需要的网络流量并开始获取我想要的指标。缺点是我认为这将是CPU密集型的,至少比需要的更多......对此有什么想法吗? 最佳答案 所有这些信息都分布在/proc/net文件中(由内核更新)