草庐IT

hadoop - 通过 oozie 运行的配置单元查询的 CPU 时间

我正在运行一个包含配置单元操作的oozie工作流。如何获取查询占用的CPU时间。如果通过HiveCLI提交Hive查询,则它会显示累积CPU时间,但在MapReduce或oozie的Hive操作日志中看不到。 最佳答案 检查在资源管理器中提交的相应MR作业。打开父作业的系统日志。您可以在那里找到所有控制台信息。 关于hadoop-通过oozie运行的配置单元查询的CPU时间,我们在StackOverflow上找到一个类似的问题: https://stackov

linux -/usr/bin/time 使用 SPARK 时针对 TOP 的 CPU 利用率

我使用Spark中的MLIB库对大小为8G和700万行的数据运行了SVM算法。我在单个节点上以独立模式运行Spark。我使用/usr/bin/time-v来捕获有关作业的数据。我得到了峰值内存利用率和%CPU时间等等。我得到的CPU使用率百分比仅为6%。我在程序运行的同时监视TOP一段时间,我可以看到超过100%几乎始终如一地被使用。我现在很困惑,为什么/usr/bin/time只显示了6%?更多细节-我的机器是16G,我运行的程序消耗了13.88G。程序执行时间为2.1小时。任何见解,任何人? 最佳答案 我发现了问题。因此,usr

hadoop - 为什么某些工作节点在运行 Spark 应用程序时会占用更多系统 CPU?

我有1个主节点和4个工作节点。我使用Ambari设置集群,所有监控指标都是从其仪表板收集的。Spark在Hadoop之上,所以有了YARN和HDFS。我运行了一个非常简单的字数统计脚本,发现其中一个工作节点完成了最多的工作。字数统计工作分为149个任务。一个节点完成98个任务。这是我计算单词的代码valfile=sc.textFile("/data/2gdata.txt")//readfilefromHDFSvalcounts=file.flatMap(line=>line.split("")).map(word=>(word,1)).reduceByKey(_+_)counts.co

hadoop - 我想知道(公式)如何计算 namenode、yarn 和 Resource Manager 的 RAM、CPU 和磁盘内存

我正在尝试构建不同大小的集群,这就是为什么我需要可以从中计算namenode、yarn和资源管理器的RAM、CPU和磁盘内存的公式。还想知道RAM、CPU和磁盘之间的关系。 最佳答案 您可以使用Cloudera指南Download 关于hadoop-我想知道(公式)如何计算namenode、yarn和ResourceManager的RAM、CPU和磁盘内存,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.co

client - Hadoop:提交作业后客户端的高 CPU 负载

我在浏览一些Hadoop指南时找不到问题的答案:我正在通过客户端计算机上的shell脚本一次性提交各种Hadoop作业(最多200个)。每个作业都通过一个JAR(相当大;大约150MB)启动。提交作业后,客户端计算机的CPU负载非常高(每个内核都在100%),并且RAM很快变满。这样,客户端就不再可用了。我认为每个作业的计算完全在Hadoop框架内完成,作业运行时集群和客户端之间只交换一些状态信息。那么,为什么客户端会完全拉伸(stretch)?我是否以错误的方式提交Hadoop作业?每个JAR是否太大?提前致谢。 最佳答案 这与j

java - 在完全相同的工作负载下,一台服务器显示出高 CPU 负载

我正在运行hadoop,集群中有2个配置相同的服务器。它们运行相同的任务、相同的配置、相同的一切,并且都完全专用于hadoop任务节点(工作节点)。我在这个集群中运行的作业是高度IO绑定(bind)的。在一台服务器上,我看到60-100MB/sec的IO和CPUload的5-10,在另一台服务器上,我看到40-60MB/sec的IO和60-90的CPU负载(盒子几乎即使运行一个简单的shell也不可用)。我运行了smartctl并且没有收到任何磁盘警告。关于我下一步可以做什么来识别这些盒子之间的根本区别有什么建议吗?经过数小时的处理,这些结果一直保持一致。

hadoop - pig CPU 密集型任务 - 小数据文件 - 许多映射器?

我正在寻找有关如何通过我的Pig作业提高性能的任何提示。输入是单个文件(MB),但对于文件中的每一行,都会执行一个CPU密集型任务。因此,理想的做法是将此文件拆分到我的AmazonEMR集群中的许多映射器(和机器)。但是我找不到一种方法来做到这一点,因为Hadoop自然只会以64(或者是128?)MB间隔进行拆分,所以我只有1个映射器!我看过NLineInputFormat(http://www.olenick.com/blog/hadoop-for-small-data/),但这是针对旧API的,也不确定它如何与Pig一起使用。为了让事情更复杂,我正在使用CSVExcelStorag

java - Hadoop HPROF 分析未写入 CPU 样本

我想使用HPROF来分析我的Hadoop作业。问题是我得到了TRACES但profile.out文件中没有CPUSAMPLES。我在运行方法中使用的代码是:/**Getconfiguration*/Configurationconf=getConf();conf.set("textinputformat.record.delimiter","\n\n");conf.setStrings("args",args);/**JVMPROFILING*/conf.setBoolean("mapreduce.task.profile",true);conf.set("mapreduce.task

java - 在多个 CPU 内核上运行独立的 Hadoop 应用程序

我的团队使用Hadoop库构建了一个Java应用程序,将大量输入文件转换为有用的输出。考虑到当前的负载,单个多核服务器在未来一年左右的时间里表现良好。我们(还)不需要建立多服务器Hadoop集群,但我们选择“准备中”开始这个项目。当我在命令行(或在eclipse或netbeans中)运行这个应用程序时,我还不能说服它一次使用多个map和/或reduce线程。鉴于该工具非常占用CPU,这种“单线程”是我目前的瓶颈。当在netbeansprofiler中运行它时,我确实看到该应用程序出于各种目的启动了多个线程,但同时只有一个map/reduce在运行。输入数据由多个输入文件组成,因此Had

php - 限制 CPU 负载或设置进程优先级

这不是我第一次从我的主机收到过多的CPU负载警告。该代码只是一些带有mysql查询的随机php脚本,没什么特别的。(表格没什么特别的,最多几百行,如果需要,我总是限制它们。我不介意它运行0.15秒而不是0.05秒,那么有什么方法可以控制进程优先级或限制CPU负载?谢谢! 最佳答案 如果这是一个运行很长时间的后台程序或程序,请添加sleep()/usleep().短暂的sleep会显着降低您的CPU使用率。下面的代码会消耗大量的cpuwhile(...){//dostuff}因为您没有为CPU留出空间来执行其他任务。改成while(.