草庐IT

ACCESS_GROUP

全部标签

sql - hive group-by 处理空值

假设我正在使用Hive按列分组,该列的值可能为1、2、3或空,想知道我是否只需要简单地编写groupby处理空值?我分析的目的是分别计算有多少行的值为1、2、3和为空。顺便说一句,列的类型是字符串。提前致谢,林 最佳答案 如果“空”是指NULL,那么,是的,您可以使用groupby。这个查询:selectcol,count(*)fromtabletgroupbycol;将为NULL返回一个单独的行。 关于sql-hivegroup-by处理空值,我们在StackOverflow上找到一个

hadoop - Hadoop 中的 AccessControlException for access=EXECUTE

我有一个小应用程序,它从我的本地机器读取文件并将数据写入hdfs。现在我想列出hdfs文件夹中的文件,比如HadoopTest。当我尝试这样做时,出现以下异常:org.apache.hadoop.security.AccessControlException:Permissiondenied:user=rpoornima,access=EXECUTE,inode="/hbase/HadoopTest/Hadoop_File_1.txt":rpoornima:hbase:-rw-r--r--atorg.apache.hadoop.hdfs.server.namenode.FSPermis

hadoop - 非法参数异常 : Unable to access BASE URL: httpHDP Installation

我正在尝试使用ambari安装HDP2.3。我已经安装了ambari客户端和服务器。在三个节点。当我选择堆栈时-我无法访问BASEURL错误。请看下面的错误图片。同样在服务器日志中,我可以看到错误为:Resource_management.core.exceptions.Fail:Executionof'/usr/bin/yum-d0-e0-yinstallhdp-select'returned1.Error:Cannotretrieverepositorymetadata(repomd.xml)forrepository:HDP-2.3.Pleaseverifyitspathandt

hadoop - Hive 表达式不在 GROUP BY 键中

我需要在配置单元中执行这个查询:SELECTwaybill_no,vehicle_no,WAYBILL_TYPE,etim_no,trip_no,route_no,sum(full_ticket_count)asfull_ticket_count,sum(half_ticket_count)ashalf_ticket_count,sum(BOT_ticket_count)asBOT_ticket_count,sum(manual_ticket_count)asmanual_ticket_count,sum(window_booking_count)aswindow_booking_co

hadoop - 如何使用 Apache Pig 获取类似 GROUP BY 的 SQL?

我有以下名为movieUserTagFltr的输入:(260,{(260,starwars),(260,GeorgeLucas),(260,sci-fi),(260,cultclassic),(260,ScienceFiction),(260,classic),(260,supernaturalpowers),(260,nerdy),(260,ScienceFiction),(260,criticallyacclaimed),(260,ScienceFiction),(260,action),(260,script),(260,"imaginaryworld),(260,space),

SQL 查询 : How to select multiple instances of a single item without collapsing into a group?

我正在尝试在Impala中执行SQL查询。我有一个数据表,其中(除其他外)有两列,其值相交多次。例如,假设我们有一个表,其中包含两列相关的姓名和电话号码:姓名电话号码约翰·史密斯(123)456-7890罗伯·约翰逊(123)456-7890格雷格·jackson(123)456-7890汤姆格林(123)456-7890jack·马西斯(123)456-7890约翰·史密斯(234)567-8901罗伯·约翰逊(234)567-8901乔·沃尔夫(234)567-8901迈克·托马斯(234)567-8901吉姆·摩尔(234)567-8901约翰·史密斯(345)678-9012罗

hadoop - 如何执行 Group by 然后在 pig 的其他列上使用 DISTINCT

我刚刚开始学习PIG,需要一些帮助解决以下问题。提前致谢!例如:我有这样的输入:职业类别名称ActressActingMarionCotillardActorActingLiamNelsonTennisPlyrAthleticsRogerFedererFootballPlyrAthleticsNeymarActorActingTomHanksActressActingElizabethBanksUSSenatorPoliticsElizabethWarrenFootballPlyrAthleticsMesutOzil我想知道单个类别中有多少种类型。例如:-表演有两种类型,一种是女Act

hadoop - Sqoop Teradata 连接器问题 - 错误 : The user does not have CREATE TABLE access to database

当我尝试从TeradataView导入表时,我遇到了Sqoop的Teradata连接器问题。我只能访问View。但不知何故,当sqoop作业开始时,它试图在我正在访问的TeradataDB中创建一个表,但无权在该DB/schema中创建任何表我低于错误13/05/3103:40:12ERRORtool.ImportTool:EncounteredIOExceptionrunningimportjob:com.teradata.hadoop.exception.TeradataHadoopSQLException:com.teradata.jdbc.jdbc_4.util.JDBCExc

hadoop - 统计 GROUP BY 中 PIG 查询和 MySql 查询结果的差异

我的PIG查询如下所示emp=LOAD'hdfs://master:9000/hrms/DimEmployee'AS(EmployeeID,OrganizationID,EmploymentType);grouped=groupempby(OrganizationID,EmploymentType);AggEmploymentType=FOREACHgroupedGENERATEgroup.OrganizationID,group.EmploymentType,COUNT(emp.EmployeeID)ascnt;DUMPAggEmploymentType;下面给出了上述pig查询的逐

hadoop - pig : Slow Group By operator

在对Hive和Pig进行基准测试后,我发现Pig中的GroupBy运算符比Hive的要慢得多。我想知道是否有人有过同样的经历?人们是否有任何改进此操作性能的技巧?(按照此处早期帖子的建议添加DISTINCT没有帮助。我目前正在重新运行启用LZO压缩的基准测试)。 最佳答案 看来你看错了方向。GroupBy只是以某种方式对数据进行分组,之后的操作非常重要。在Pig中尝试分析性能时,您应该牢记以下几点:1)几条语句可以合并成一个MR作业,所以不要看语句,看生成的MR作业的性能。2)性能上的巨大差异应该是有原因的。这可能是:2.1不同的输