草庐IT

target-cpu

全部标签

hadoop - Pig Latin 中的 Apache Pig 查询所用的 Cpu 时间

ApachePigQuery执行需要多少时间?查询在PigLatin中获取多达400万个具有43个字段的元组(行)的记录。A=LOAD'/user/PigTest/year_14/mon_nov/6_sms_03_01.csv'USINGPigStorage(',');bt=foreachAgenerate$0asid,$3;dumpbt;ct=filterbtbyid==3981042;dumpct;dumpMinutesBetween(CurrentTime(),$ti);并将文件调用为:pig-paramti='date'try.pig我的系统环境是Linux。错误是:错误120

hadoop - Sqoop增量导入 "Cannot append files to target dir"

我在使用Sqoop将数据从MySQL导入Hive时遇到问题...这个查询:sqoopimport--connectjdbc:mysql://xx.xx.xx.xx/database\--usernamesqoop--passwordsqoop--tabledatatable\--target-dir/home/cloudera/user/hive/warehouse/database.db/datatable\--as-parquetfile-m1--append返回这个错误:15/01/1416:27:28WARNutil.AppendUtils:Cannotappendfilest

hadoop - 通过 oozie 运行的配置单元查询的 CPU 时间

我正在运行一个包含配置单元操作的oozie工作流。如何获取查询占用的CPU时间。如果通过HiveCLI提交Hive查询,则它会显示累积CPU时间,但在MapReduce或oozie的Hive操作日志中看不到。 最佳答案 检查在资源管理器中提交的相应MR作业。打开父作业的系统日志。您可以在那里找到所有控制台信息。 关于hadoop-通过oozie运行的配置单元查询的CPU时间,我们在StackOverflow上找到一个类似的问题: https://stackov

linux -/usr/bin/time 使用 SPARK 时针对 TOP 的 CPU 利用率

我使用Spark中的MLIB库对大小为8G和700万行的数据运行了SVM算法。我在单个节点上以独立模式运行Spark。我使用/usr/bin/time-v来捕获有关作业的数据。我得到了峰值内存利用率和%CPU时间等等。我得到的CPU使用率百分比仅为6%。我在程序运行的同时监视TOP一段时间,我可以看到超过100%几乎始终如一地被使用。我现在很困惑,为什么/usr/bin/time只显示了6%?更多细节-我的机器是16G,我运行的程序消耗了13.88G。程序执行时间为2.1小时。任何见解,任何人? 最佳答案 我发现了问题。因此,usr

hadoop - Sqoop 中拆分 <column> --target-dir 的目的是什么

当我们在sqoop中编写--split-by时,内部发生了什么?例子:sqoopimport--connectjdbc:mysql://localhost/test--usernameroot--passwordtraining123--query'select*fromtransactionwhere$CONDITIONS'--split-byTxnid--target-dirinput/transaction 最佳答案 HadoopMAPReduce就是分而治之。为了将数据分割成多个独立的切片并行传输,Sqoop需要找到--sp

hadoop - 为什么某些工作节点在运行 Spark 应用程序时会占用更多系统 CPU?

我有1个主节点和4个工作节点。我使用Ambari设置集群,所有监控指标都是从其仪表板收集的。Spark在Hadoop之上,所以有了YARN和HDFS。我运行了一个非常简单的字数统计脚本,发现其中一个工作节点完成了最多的工作。字数统计工作分为149个任务。一个节点完成98个任务。这是我计算单词的代码valfile=sc.textFile("/data/2gdata.txt")//readfilefromHDFSvalcounts=file.flatMap(line=>line.split("")).map(word=>(word,1)).reduceByKey(_+_)counts.co

hadoop - 我想知道(公式)如何计算 namenode、yarn 和 Resource Manager 的 RAM、CPU 和磁盘内存

我正在尝试构建不同大小的集群,这就是为什么我需要可以从中计算namenode、yarn和资源管理器的RAM、CPU和磁盘内存的公式。还想知道RAM、CPU和磁盘之间的关系。 最佳答案 您可以使用Cloudera指南Download 关于hadoop-我想知道(公式)如何计算namenode、yarn和ResourceManager的RAM、CPU和磁盘内存,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.co

client - Hadoop:提交作业后客户端的高 CPU 负载

我在浏览一些Hadoop指南时找不到问题的答案:我正在通过客户端计算机上的shell脚本一次性提交各种Hadoop作业(最多200个)。每个作业都通过一个JAR(相当大;大约150MB)启动。提交作业后,客户端计算机的CPU负载非常高(每个内核都在100%),并且RAM很快变满。这样,客户端就不再可用了。我认为每个作业的计算完全在Hadoop框架内完成,作业运行时集群和客户端之间只交换一些状态信息。那么,为什么客户端会完全拉伸(stretch)?我是否以错误的方式提交Hadoop作业?每个JAR是否太大?提前致谢。 最佳答案 这与j

java - 在完全相同的工作负载下,一台服务器显示出高 CPU 负载

我正在运行hadoop,集群中有2个配置相同的服务器。它们运行相同的任务、相同的配置、相同的一切,并且都完全专用于hadoop任务节点(工作节点)。我在这个集群中运行的作业是高度IO绑定(bind)的。在一台服务器上,我看到60-100MB/sec的IO和CPUload的5-10,在另一台服务器上,我看到40-60MB/sec的IO和60-90的CPU负载(盒子几乎即使运行一个简单的shell也不可用)。我运行了smartctl并且没有收到任何磁盘警告。关于我下一步可以做什么来识别这些盒子之间的根本区别有什么建议吗?经过数小时的处理,这些结果一直保持一致。

linux - 乌兹 : Sqoop dynamic target directory

我正在执行Oozie工作流中的sqoop作业。我可以在sqoop命令中创建具有静态名称的目标目录,如下所示。${jobTracker}${nameNode}job--execEMPLOYEE--meta-connectjdbc:hsqldb:hsql://:/sqoop----target-dir/user/test/Employee/20150126我需要创建带有日期的动态目标目录。我试过跟随,但没有用。${jobTracker}${nameNode}job--execEMPLOYEE--meta-connectjdbc:hsqldb:hsql://:/sqoop----target