草庐IT

行人计数

全部标签

hadoop - HBase MILLIS_BETWEEN_NEXTS 计数器代表什么?

我正在运行从HBase读取的mapreduce作业。有些映射器比其他映射器慢得多,它们的计数器唯一显着的区别是MILLIS_BETWEEN_NEXTS。我试图寻找对指标的解释,但没有找到任何东西。您知道该指标代表什么以及如何对其进行优化吗? 最佳答案 Java文档说,sumofmillisecondsbetweensequentialnextcalls这几乎就是它所说的。您可以在org.apache.hadoop.hbase.client.ClientScanner中查看next()方法以了解实现细节。引用:http://archi

SQL - session 计数和 session 之间的事务

我正在尝试编写一个可以回答以下问题的HiveQL(甚至是ANSISQL)查询:我有一个包含事件(交易)的数据库,每个事件都存储有一个user_id和一个trans_time(交易时间)。一个user_id可以有无限的事件,甚至可以有多个具有相同trans_time的事件。如果我建立一个事件时间窗口(即10秒),那么有多少窗口在该窗口内有多少事件?我想结果会是这样的(显然没有文字,只有数字)...100个窗口只有1个事件50个窗口有2个事件..1个窗口有30个事件描述第一个结果...数据集中有100个实例,其中只有1个事件发生在10秒窗口内。有没有办法从相同的数据中提取另一个指标,即50

hadoop - 对 PIG Latin 中的记录进行分组和计数

我是PIGLatin的新手,我正在尝试解决以下问题找出每个区号都有电话号码的员工数。EMPIDADD_IDZIPSALPHONEDATAbcd411PbcDr6026495349246404111-432-419320150113Abcd874PbcDr3935318630729873100-432-916420150728Abcd197PbcDr4672530618531908113-432-419120150410Abcd160PbcDr7773833053361313105-432-246820151007Abcd327PbcDr1003495170339301109-432-9

hadoop - hdfs-计数 : Illegal option -v

我试图获取标题,但它说非法选项-vhdfsdfs-count-q-h-vhdfs_path-count:Illegaloption-vHadoop版本:Hadoop2.6.0.3.0.0.0-249来源链接:hdfscount 最佳答案 版本很重要。您链接上的文档与hadoop2.7相关。似乎选项-v在Hadoop2.6中不存在这是hadoop2.6的文档:https://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/FileSystemShell.h

date - 在 Hive 中按周计数

我试图每周生成一组完全刷新的数字,从hive中的表中提取。现在我使用这种方法:SELECTCOUNT(DISTINCTcasewhentimestampbetweenTO_DATE("2016-01-28")andTO_DATE("2016-01-30")thenuseridend)asweek_1,COUNT(DISTINCTcasewhentimestampbetweenTO_DATE("2016-01-28")andTO_DATE("2016-02-06")thenuseridend)asweek_2FROMData;我正在尝试获得更多信息:选择月(时间戳)、周(时间戳)、COU

java - 用于获取 AWS EMR 中任务实例组实例计数的 API

我想获取AWSEMR中任务实例组实例的数量。为此,我使用Cloudwatch检查每个任务实例组实例的心跳。但是我觉得,EMR说到底是一个使用hadoop的框架,hadoop的master肯定有活任务节点的信息。任何人都可以告诉我元数据链接(或任何文件位置)以获取此信息吗? 最佳答案 我编写了一个Java工具来在处理过程中动态调整EMR集群的大小。它有一些代码来获取实例中的实例计数,作为它的一部分。也许这就是您要找的东西。在以下位置查看:http://www.lopakalogic.com/articles/hadoop-articl

sql - SQL中的多行和计数行

我有一张包含仓库进出货量的表格。我想每天多行,然后计算并计算每天的存储成本。(OriginalImage)+--------+--------------+----------+----------+--------------+------------+|material|wasting_time_a|indate|outdate|count_material|storage_cost|+--------+--------------+----------+----------+--------------+------------+|963651|5|2016-12-02|2016

hadoop - Hadoop 中的 VIRTUAL_MEMORY_BYTES 任务计数器是什么意思?

权威指南中的以下摘录提供了如下所示的高级详细信息,但是这个任务计数器中的虚拟内存到底指的是什么?如何解读?它与PHYSICAL_MEMORY_BYTES有什么关系?以下是其中一份工作的示例摘录。物理空间约为214GB。虚拟空间约为611GB。 最佳答案 1.这个任务计数器中的虚拟内存到底指的是什么?VirtualMemoryhereisusedtopreventOutofMemoryerrorsofatask,ifdatasizedoesn'tfitsinRAM(physicalmem).inRAM.Soaportionofmemo

scala - 检查数据框中列的计数并添加列并计数为 Map

我是一个Scala初学者。我试图在表的列中查找空值的计数,并在Map中添加列名和计数作为键值对。下面的代码没有按预期工作。请指导我如何修改此代码以使其工作defnullCheck(databaseName:String,tableName:String)={varmap=scala.collection.mutable.Map[String,Int]()validationColumn=Array(col1,col2)for(i函数应该返回((col1,count),(col2,count))作为Map 最佳答案 这可以通过创建一个

hadoop - 如何在 Pig 的 Jython UDF 中增加 Hadoop 计数器

我想监控Pig作业的进度。大多数工作是在用Jython编写的UDF中完成的。有没有办法从JythonUDF中定义/增加Hadoop计数器?提前致谢。 最佳答案 我现在不能检查它(抱歉未经测试的代码),但是在Pig0.8的JavaUDF(非常相似)中它应该是这样的:publicclassINC_COUNTERextendsEvalFunc{@OverridepublicDataBagexec(Tupleinput)throwsIOException{PigStatusReporterreporter=PigStatusReporter