草庐IT

input-group

全部标签

SQL 查询 : How to select multiple instances of a single item without collapsing into a group?

我正在尝试在Impala中执行SQL查询。我有一个数据表,其中(除其他外)有两列,其值相交多次。例如,假设我们有一个表,其中包含两列相关的姓名和电话号码:姓名电话号码约翰·史密斯(123)456-7890罗伯·约翰逊(123)456-7890格雷格·jackson(123)456-7890汤姆格林(123)456-7890jack·马西斯(123)456-7890约翰·史密斯(234)567-8901罗伯·约翰逊(234)567-8901乔·沃尔夫(234)567-8901迈克·托马斯(234)567-8901吉姆·摩尔(234)567-8901约翰·史密斯(345)678-9012罗

hadoop - 如何执行 Group by 然后在 pig 的其他列上使用 DISTINCT

我刚刚开始学习PIG,需要一些帮助解决以下问题。提前致谢!例如:我有这样的输入:职业类别名称ActressActingMarionCotillardActorActingLiamNelsonTennisPlyrAthleticsRogerFedererFootballPlyrAthleticsNeymarActorActingTomHanksActressActingElizabethBanksUSSenatorPoliticsElizabethWarrenFootballPlyrAthleticsMesutOzil我想知道单个类别中有多少种类型。例如:-表演有两种类型,一种是女Act

Hadoop : Number of input records for reducer

无论如何,每个reducer进程都可以确定它必须处理的元素或记录的数量吗? 最佳答案 简短回答-提前不,reducer不知道可迭代对象支持多少个值。您可以执行此操作的唯一方法是在迭代时进行计数,但您不能再对可迭代对象进行重新迭代。长答案-支持可迭代对象实际上是序列化键/值对的排序字节数组。reducer有两个比较器-一个用于按键顺序对键/值对进行排序,然后第二个用于确定键之间的边界(称为键分组器)。通常,键分组器与键排序比较器相同。当迭代特定键的值时,底层上下文检查数组中的下一个键,并使用分组比较器与前一个键进行比较。如果比较器确定

java.lang.NumberFormatException : For input string: "100" while executing MapReduce 异常

我正在编写一个MapReduce作业,用于在facebook上寻找共同的friend。这是我的映射器的输入:100,200300400500600200,100300400300,100200400500400,100200300500,100300600,100这是我的映射器代码的一部分:map{Stringline=value.toString();String[]LineSplits=line.split(",");String[]friends=LineSplits[1].trim().split("");for(inti=0;i当我执行此操作时,我在friend2中获得了正确

java - Hadoop Java : how to specify map key as one of the index of input split?

我有一个看起来像这样的输入数据:3070801,1963,1096,,"BE","",,1,,269,6,69,,1,,0,,,,,,,3070802,1963,1096,,"US","TX",,1,,2,6,63,,0,,,,,,,,,3070803,1963,1096,,"US","IL",,1,,2,6,63,,9,,0.3704,,,,,,,3070804,1963,1096,,"US","OH",,1,,2,6,63,,3,,0.6667,,,,,,,3070805,1963,1096,,"US","CA",,1,,2,6,63,,1,,0,,,,,,,3070806,196

hadoop - 统计 GROUP BY 中 PIG 查询和 MySql 查询结果的差异

我的PIG查询如下所示emp=LOAD'hdfs://master:9000/hrms/DimEmployee'AS(EmployeeID,OrganizationID,EmploymentType);grouped=groupempby(OrganizationID,EmploymentType);AggEmploymentType=FOREACHgroupedGENERATEgroup.OrganizationID,group.EmploymentType,COUNT(emp.EmployeeID)ascnt;DUMPAggEmploymentType;下面给出了上述pig查询的逐

input - 节点本地映射减少作业

我目前正在尝试编写一个map-reduce作业,其中输入数据不在HDFS中并且无法加载到HDFS中,主要是因为使用该数据的程序无法使用HDFS中的数据,而且有太多数据无法复制到HDFS中,每个节点至少1TB。因此,我的集群中的4个节点各有4个目录。理想情况下,我希望我的映射器只接收这4个本地目录的路径并使用file:///var/mydata/...之类的内容读取它们,然后1个映射器可以处理每个目录。即总共16个映射器。然而,为了能够做到这一点,我需要确保每个节点正好有4个映射器,并且恰好有4个映射器已分配到该机器的本地路径。这些路径是静态的,因此可以硬编码到我的文件输入格式和记录读取

hadoop - Nutch : org. apache.hadoop.mapreduce.lib.input.InvalidInputException: 输入路径不存在

当我执行nutch命令创建crawdb文件夹和内容时:soporte@CNEOSYLAP/usr/local/apache-nutch-2.2.1/runtime/local$bin/nutchcrawlurls-dircrawl-depth3-topN5我收到这个错误:InjectorJob:Usingclassorg.apache.gora.hbase.store.HBaseStoreastheGorastorageclass.Exceptioninthread"main"org.apache.hadoop.mapreduce.lib.input.InvalidInputExcep

hadoop - pig : Slow Group By operator

在对Hive和Pig进行基准测试后,我发现Pig中的GroupBy运算符比Hive的要慢得多。我想知道是否有人有过同样的经历?人们是否有任何改进此操作性能的技巧?(按照此处早期帖子的建议添加DISTINCT没有帮助。我目前正在重新运行启用LZO压缩的基准测试)。 最佳答案 看来你看错了方向。GroupBy只是以某种方式对数据进行分组,之后的操作非常重要。在Pig中尝试分析性能时,您应该牢记以下几点:1)几条语句可以合并成一个MR作业,所以不要看语句,看生成的MR作业的性能。2)性能上的巨大差异应该是有原因的。这可能是:2.1不同的输

java - 如何在 Hive 嵌入式模式下运行包含 "select count(*)"和 "group by"子句的 Hive Sql 查询?

如何在Hive嵌入式模式下运行此查询(1)selectproduct,count(*)ascntfromhive_bigpetstore_etlgroupbyproduct在Maven控制台中,我得到一个InvocationTargetException异常在我找到的Hive日志文件中java.lang.Exception:java.lang.NullPointerExceptionatorg.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:354)Causedby:java.lang.NullPointe