草庐IT

real-time

全部标签

hadoop - 为什么有时mapreduce Average Reduce Time 是负数?

我在hadoop集群上运行mapreduce作业。我在浏览器中看到的job运行时间master:8088和master:19888(jobhistoryserverwebUI)如下:主人:8088大师:19888我有两个问题:为什么两张图片的耗时不同?为什么有时平均减少时间是负数? 最佳答案 看起来AverageReduceTime是基于之前任务(洗牌/合并)完成所花费的时间,而不一定是reduce实际运行所花费的时间。看着这个sourcecode您可以看到在第300行附近发生的相关计算。if(attempt.getState()=

multithreading - 为什么hadoop任务的real时间明显大于user+sys时间?

在hadoop任务上运行time命令时,出现如下结果:real0m25.839suser0m1.362ssys0m0.184我在VM上运行单个节点,并尝试在基准测试中记录hadoop任务的时间。 最佳答案 假设为I/O休眠所花费的时间不是原因,也许是VM本身作为主机上的进程运行这一事实导致了巨大的差异。实时表示挂钟时间。此处报告的user+sys时间是任务在VM处理器上花费的时间。因此,报告的实时时间将包括VM上运行的其他进程以及主机上运行的VM以外的进程使用的时间。 关于multith

hadoop - 进行实时数据分析的最佳方式

我目前对使用实时飞机性能数据进行实时数据分析感兴趣,以进行预测分析。可以使用哪些工具和技术在研究层面实现这样的系统? 最佳答案 对于实时数据分析,如果我处在你的位置,我会选择以下技术1)用于实时数据摄取的Kafka。2)用于流处理的SparkStreaming3)SparkML使用机器学习算法(预测)4)用于可视化的ApacheZeppelin。5)数据存储你可以根据需要使用Hive或HDFS6)用于性能监控的神经节希望对您有所帮助!!!... 关于hadoop-进行实时数据分析的最佳方

在Android Studio导入一个项目之后,通常需要下载Gradle的相应版本,但是AS的自动下载很慢,有时候甚至会失败。会出现类似Error:connect time out等错误...

用AndroidStudio导入一个项目时,用Gradle构建过程中报错误,估计是下载gradle.zip文件时访问不到,应该是被墙了,网速太慢,下载不了外网资源。错误有如下情况:1、加载过慢2、下载超时3、下载失败解决方法如下:1、下载对应的gradle版本在Project的视图下,找到gradle,里面的cradle-wrapper.properties显示我们需要的gradle版本,然后打开连接下载对应版本(可能这里的链接下载比较慢,可以找找其他下载链接)这时候我们可以在官网或者其他网站用浏览器下好再放到相应目录,在AS的底部可以看到gradle的版本,如果不清楚可以打开gradle-w

apache - Hadoop/map-reduce : Total time spent by all maps in occupied slots vs. 所有 map task 花费的总时间

背景:我正在分析AWSHadoop作业在各种集群配置上的性能,一些Hadoop计数器令人困惑。问题:“所有map在占用槽中花费的总时间”和“所有maptask花费的总时间”有什么区别?(减少相同的问题)。为简单起见,我们称这些计数器为mapO、mapT、redO和redT。这是我在三种不同的配置中看到的(每种配置都有不同数量的核心/从节点):1)对于AWS/EMR作业(Hadoop2.4.0-amzn-3),mapO/mapT的比率始终为6.0,redO/redT的比率始终为12.0。2)对于使用实例存储的手动安装的Hadoop(Hadoop2.4.0.2.1.5.0-695),map

database - 针对不断变化的大型数据集发出实时警报

我有一个庞大的数据集,我必须监控其中的异常情况并发送警报。最接近我正在尝试做的例子如下。假设关系数据库中有一个股票表:stocks:iddatestock_nameprice假设我们正在处理一百万只股票。白天,股票价格根据持续和频繁的实时信息不断更新。在一天结束时,每只股票的最后记录价格是当天的收盘价。第二天,我们向表中添加另外一百万条记录并再次开始处理它。假设用户可以配置如下警报:“当AAPL的走势超过过去10天的平均值10%时,提醒我”或“当任何股票在过去10天内的波动幅度超过其平均水平的10%时,提醒我”我们需要满足来自不同用户的100条提醒。持续轮询并尝试定期匹配警报是不切实际

hadoop - 为什么Hadoop遵循WORM(write once read many times),不允许update?

Hadoop遵循WORM(一次写入多次读取)。为什么它不允许任何更新?谢谢 最佳答案 真正的问题是更新数据的动机是什么?我们将我们的实体存储在数据库中并在看到新信息时更新它们,但为什么呢?原因是当它最初被架构时,磁盘空间是昂贵的。快进到今天,磁盘空间很便宜,这意味着我们可以负担得起将数据更改反射(reflect)为新条目,例如实体在其生命周期中经历的更改日志。通过使用这种方法,数据的沿袭更加明显-我们只需重新访问同一实体的旧版本即可发现它的来源以及对其应用了哪些转换。此外,如果最新版本出现问题,一切都不会丢失。我们只需退回到旧版本,

hadoop - Cloudera hadoop : not able to run Hadoop fs command and at same time HBase is not able to create directory on HDFS?

我已经启动并运行了6个节点的cloudera5.0beta集群但是我无法使用命令查看hadoopHDFS的文件和文件夹sudo-uhdfshadoopfs-ls/在输出中它显示了linux目录的文件和文件夹。尽管namenodeUI正在显示文件和文件夹。在HDFS上创建文件夹时出现错误sudo-uhdfshadoopfs-mkdir/testmkdir:`/test':Input/outputerror由于此错误,hbase未启动并关闭并出现以下错误:Unhandledexception.Startingshutdown.java.io.IOException:Exceptioninm

hadoop - POC for Hadoop 实时场景

我有点问题。我想了解Hadoop以及如何使用它来实时处理数据流。因此,我想围绕它构建一个有意义的POC,这样当我必须在一些潜在雇主面前证明我对它的了解或在我现在的公司介绍它时,我可以展示它。我还想提一下,我的硬件资源有限。只有我的笔记本电脑和我自己:)我了解Hadoop的基础知识并且编写了2-3个基本的MR作业。我想做一些更有意义或更现实的事情。请提出建议。提前致谢。 最佳答案 我想指出几点。如果您想只用一台笔记本电脑进行POC,那么使用Hadoop就没有什么意义了。另外,正如其他人所说,Hadoop不是为实时应用程序设计的,因为运

php time() 和 microtime() 有时不一致

在使用microtime()(使用PHP5)记录一些数据时,我遇到了一些值,这些值似乎与我的日志文件的时间戳略有不同,所以我只是尝试比较time()和microtime()和一个简单的脚本(usleep只是为了限制数据输出):$time){echo$time.':'.$microtime.'';}usleep(50000);}?>现在,由于在$time之前声明了$microtime,我希望它更小,并且永远不会输出任何内容;然而,这显然不是这种情况,$time有时会小于microtime()返回的秒数,如本例(截断)输出所示:1344536674:0.155451001344536675