草庐IT

sql - 如何使用标准查询或使用 UDF 标记一行并将其特定值存储在 Hive 中?

我需要在Hive中编写查询或定义需要执行以下操作的函数:数据集:Student||Time||ComuputerPool-------------------------------------A||9:15AM||Pool1.Machine2-------------------------------------A||9:45AM||Pool1.Machine7-------------------------------------A||10:15AM||Pool1.Machine9-------------------------------------A||11:00AM||

hadoop - 在 Pig 中加载文件并将其转换为带分隔符的一行

我需要你的帮助来输出我在Pig中加载的文件,其中包含如下数据:AAAA,message1BBBB,message2CCCC,message3DDDD,message4我需要做的就是得到这样的输出AAAA,message1,BBBB,message2,CCCC,message3,DDDD,message4此输出我将在其他pigudf之后使用它..谢谢你的帮助 最佳答案 输入:AAAA,message1BBBB,message2CCCC,message3DDDD,message4pig脚本:A=LOAD'input.csv'USINGP

java - 我正在尝试使用正则表达式来匹配输入文件中的一行

我有一个输入文件,其中的行包含10列,格式如下:String,OnlyInteger,OnlyString,AlphaNumeric,AlphaNumericoflength7,AlphaNumericoflength7(with1,3,4ascharactersand2,5,6,7asdigits),Decimal(rangefrom0.4to0.8),Decimal,OnlyString,OnlyIntegeroflength5所有10列都在同一行中。我正在尝试使用正则表达式模式仅获取第7、8、9列。我正在尝试使用此正则表达式。有人可以帮忙吗。privatestaticclassR

hadoop - 使用 Pig 脚本删除文件的第一行和最后一行

我想使用pig脚本删除HDFS文件的第一行和最后一行。我尝试使用Rank实现此目的并且它有效但我应该知道最后一个排名数字以删除它但我的文件是动态的它可以有更多或更少的行,对于那种情况我无法找到任何事物。请帮忙编辑:我的数据很大,所以我无法创建模式,也无法将它们分组以使用MIN()如何实现这一点? 最佳答案 一旦您获得可用的排名,您就可以通过MIN和MAXeval函数获得要排除的第一个和最后一个排名(即文件的第一行和最后一行)。这样您就无需对排名过滤器进行硬编码。EvalfunctionMAXEvalfunctionMIN注意:这是针

hadoop - 如何将一行与 spark 数据集中的所有其他行进行比较?

我有一个从MySQL加载的spark数据集,我想将每一行与数据集中的所有其他行进行比较,并使用获得的结果创建一个新的数据集。有什么办法可以实现吗? 最佳答案 您可能想通过匹配行的字段来连接两个数据集。你可以像这样匹配两个数据集并加入这两个数据集valResult=DF1.join(DF2,(DF1("USER_ID")===DF2("USER_ID"))&&(DF1("SESSION_ID")===DF2("SESSION_ID"))&&(DF1("日期")===DF2("日期"))).select(DF1("USER_ID"),D

sql - hadoop操作只写一行?

我正在尝试处理tweets-clean.txt。通过处理,我的意思是获取每个用户标识的较早日期、最新日期和记录数,以及每行中的用户标识本身。我只得到一行,该行中只有最小和最大日期。我做错了什么?CREATETABLEtemptweets16(datestring,useridstring);LOADDATALOCALINPATH'tweets-clean.txt'INTOTABLEtemptweets16;INSERTOVERWRITELOCALDIRECTORY'./hive-output'SELECTuseridasuserid,MIN(FROM_UNIXTIME(UNIX_TIM

hadoop - 从 Pig 中的另一行中减去一行的值

我正在尝试使用Pig开发一个示例程序来分析一些日志文件。我想分析不同作业的运行时间。当我读入作业的日志文件时,我得到作业的开始时间和结束时间,如下所示:(Wed,03/20/13,01:03:37,EDT)(Wed,03/20/13,01:05:00,EDT)现在,要计算耗时,我需要减去这2个时间戳,但由于两个时间戳都在同一个包中,我不确定如何比较它们。所以我正在寻找有关如何执行此操作的想法。谢谢! 最佳答案 两个日志行中的作业是否有唯一ID?还有什么东西可以指示哪个事件开始,哪个事件结束?如果是这样,您可以读取数据集两次,一次用于

hadoop - Hbase:如何知道一行是否有特定的列族?

让我们假设行键1具有f1:c1、f1:c2的值其中rowkey2仅具有f1:c1的值。第2行没有f1:c2。我如何识别这些行(没有填充列的行)? 最佳答案 你想从行中知道然后像这样尝试...HTablet=newHTable(conf....);ResultScannerscanner=t.getScanner(newScan());for(Resultrr=scanner.next();rr!=null;rr=scanner.next()){if(rr.getValue("YourFamily","YourQualifier").

hadoop - 在 HBase 中删除一行的单元格

我是HBase的新手,我正在创建一个大表。定期扫描我的表,并删除与某行相关的一些数据。我想知道是否对于特定行,我删除了该行的一些列,它减少了磁盘消耗量,从而减少了正在使用的磁盘量? 最佳答案 Hbase数据一般会存储在HDFS中/hbase显然,删除数据会减少一些空间。请检查如下预检:hadoopfs-ls-Ryourpathtohbaseusally/hbasehadoopfs-du-hyourpathtohbaseusally/hbase删除:现在你运行你的程序来删除...检查后:hadoopfs-du-hyourpathtoh

hadoop - pig 计数不同导致标量在输出错误中有不止一行

我有一个pig关系,读起来像-describeA;A:{header:(member_id,field_2,..)}现在我只想梳理一下成员,所以我这样做了-A1=FOREACHAGENERATEA.header.member_id;A2=LIMITA110;dumpA2;这运行了很长时间,最终导致错误-无法打开别名A2的迭代器。后端错误:标量在输出中有多于一行。我做错了什么? 最佳答案 问题在于行:A1=FOREACHAGENERATEA.header.member_id;您不应在A.header.member_id中引用A。Pig