草庐IT

group_id

全部标签

hadoop - 从给定查询的配置单元日志中获取应用程序 ID

在我们的环境中,我们有许多用户从不同的工具发出Hive查询。很多时候用户会给我们查询,说在某个时候失败了,我们需要深入挖掘,找到原因。所以我们需要解析Hive日志并找到查询。找到查询是比较容易的部分,有没有办法很容易地找出一旦在配置单元日志中找到查询(通常在执行命令之后),我如何轻松地获得与之关联的yarn应用程序ID?我正在尝试自动执行此过程,以便减少我们的分析时间。谢谢 最佳答案 您可以做的一件事是,您可以使用yarnapplication-list-appStatesALL命令。它的作用是,它将为您提供所有应用程序的列表及其各

sql - 选择列中特定 ID 和列表名称价格高于同一列的行?

我有如下内容:ID-LIST_NAME-PRICE1-WASIA-1001-GASIA-1502-WSPAIN-1503-GMIAMI-1252-GSPAIN-1002-GMIAMI-1502-WMIAMI-125我希望输出为:2-WSPAIN-1502-GSPAIN-100因为W版比G版贵。如果它基本上可以在同一行显示两者,那就更好了:2-WSPAIN-150-GSPAIN-100不同的LIST_NAME可以有很多次ID,一个ID不必包含每个LIST_NAME(例如3没有WMIAMI) 最佳答案 这是一种使用自join和stuff

Hadoop PIG Helper GROUP 错误

我正在使用HortonworksSandbox1.2,我对Hadoop平台还很陌生。所以这是错误,而我正在按照沙箱包含的教程进行操作。在PIG部分,我使用PIGHelper插入了GROUP代码。它插入一个代码,如GROUP%VAR%BY%VAR%完成教程后,我的代码看起来像这样。a=LOAD'nyse_stocks'USINGorg.apache.hcatalog.pig.HCatLoader();b=FILTERaBYstock_symbol=='IBM';c=GROUPbBYall;d=FOREACHcGENERATEAVG(b.stock_volume);DUMPd;它给出以下错

hadoop - pig : Counting the occurence of a grouped column

在此rawdata我们有棒球运动员的信息,架构是:name:chararray,team:chararray,position:bag{t:(p:chararray)},bat:map[]使用以下脚本,我们能够列出球员以及他们踢过的不同位置。我们如何计算有多少球员打过一个特定的位置?例如。有多少球员处于“指定击球手”位置?一个位置不能在一个玩家的position包中出现多次。示例数据的Pig脚本和输出如下所示。--pigscriptplayers=load'baseball'as(name:chararray,team:chararray,position:bag{t:(p:chara

sorting - 使用 pig 加载时为每一行添加 ID

假设我有一个日志文件,但没有日期字段或任何其他可用于排序的字段。唯一的提示是文件中的行已经排序(但例如我需要下降排序而不是上升排序)我想做的是在使用Pig加载时为每一行生成一个aftificialID。是否有我可以使用的内置变量?像RowId这样的东西?你有什么想法吗?问候,帕维尔 最佳答案 NewinPig0.11是RANK运算符,它将完成您需要做的事情。 关于sorting-使用pig加载时为每一行添加ID,我们在StackOverflow上找到一个类似的问题:

hadoop - 在后续 Action 中获取 YARN Action 应用 ID

我正在运行OOZIE工作流,并在map-reduce操作中进行仅限map的分布式模型拟合。由于有很多映射器,我编写了一个代码,使用yarnlogs-applicationIdapplication_x编译所有映射器任务的YARN日志,其中application_x是所有映射任务的父应用程序ID。现在我想将此摘要作为工作流的一部分,因此我需要动态获取application_x,这是上一个操作的应用程序ID。有什么办法可以得到这个吗? 最佳答案 我没有对此进行测试,但我认为您可以通过工作流EL函数获得此信息:wf:actionExter

java - hadoop job -kill <ID> 无法杀死

我使用的是1.0.4版。有些工作一直挂起,所以我一直试图杀死这些工作以释放源...但是,killing命令似乎不起作用...这是我正在做的:hadoopjob-listJobIdStateStartTimeUserNamePrioritySchedulingInfojob_111473112865969xyzNORMALNAhadoopjob-killjob_1Killedjobjob_2在此之后,我再次运行list命令,被杀死的作业仍然存在:hadoopjob-listJobIdStateStartTimeUserNamePrioritySchedulingInfojob_11147

hadoop - Spark 上的错误 'neither present in the group by, nor is it an aggregate function'

关闭。这个问题需要debuggingdetails.它目前不接受答案。编辑问题以包含desiredbehavior,aspecificproblemorerror,andtheshortestcodenecessarytoreproducetheproblem.这将有助于其他人回答问题。关闭5年前。Improvethisquestion表格:id|val|category----------------a1|10|Aa1|30|Ba1|20|Ca2|5|Aa2|7|Ba2|2|Ca3|50|Ca3|60|Ba3|90|A查询:SELECTmax(val),id,categoryFROM

hadoop - AWS 访问 key ID 在 hadoop fs -cp 命令上失败

我试图运行hadoopfs-cp命令但收到以下错误消息:-cp:AWS访问keyID和secret访问key必须指定为s3URL的用户名或密码(分别),或者通过设置fs.s3.awsAccessKeyId或fs.s3.awsSecretAccessKey属性(分别)我是hadoop和s3的新手,所以任何人都可以就我应该做什么提供建议吗?谢谢! 最佳答案 请refer.去cd${HADOOP_HOME}/conf/hadoop-site.xml并添加/更新fs.s3.awsAccessKeyIdYourAWSACCESSKEYfs.s

hadoop - Hive:GROUP By 上的子查询

需要Hive查询的帮助。我写了一个Hive查询:selectto_date(from_unixtime(epoch))asdate,count1,count2,count3fromtable1wherecount3=168这给我的结果如下:datecount1count2count37-15-2015168377-15-2015168157-15-201516843andsimilarlyforotherdates....最后,我需要编写一个查询,返回每个日期的count2和count3的中值。例如:我需要输出为:datecount1count2count37-15-201516835