草庐IT

query阶段

全部标签

hadoop - 在 Hive 中添加 JAR 给出错误 "Query returned non-zero code: 1, cause:/user/hive/warehouse/abc.jar does not exist."

我创建了一个UDF并将jar导出为abc.jar。将jar复制到/user/hive/warehouse中的hdfs。现在,我遇到以下错误:hive>ADDJAR/user/hive/warehouse/abc.jar;/user/hive/warehouse/abc.jardoesnotexistQueryreturnednon-zerocode:1,cause:/user/hive/warehouse/abc.jardoesnotexist.hive>当我这样做时,hadoopfs-ls/user/hive,我可以在/user/hive/warehouse看到abc.jar路径。我

带有分页的 Spring Data 和 Native Query

在一个web项目中,使用最新的spring-data(1.10.2)和MySQL5.6数据库,我正在尝试使用带有分页的native查询,但我遇到了org.springframework.data。jpa.repository.query.InvalidJpaQueryMethodException在启动时。更新:20180306此问题现已在Spring2.0.4中得到修复对于那些仍然感兴趣或坚持使用旧版本的人,请查看相关答案和评论以了解解决方法。根据Example50atUsing@Queryfromspring-datadocumentation可以指定查询本身和countQuery

带有分页的 Spring Data 和 Native Query

在一个web项目中,使用最新的spring-data(1.10.2)和MySQL5.6数据库,我正在尝试使用带有分页的native查询,但我遇到了org.springframework.data。jpa.repository.query.InvalidJpaQueryMethodException在启动时。更新:20180306此问题现已在Spring2.0.4中得到修复对于那些仍然感兴趣或坚持使用旧版本的人,请查看相关答案和评论以了解解决方法。根据Example50atUsing@Queryfromspring-datadocumentation可以指定查询本身和countQuery

hadoop - 在 hadoop 的映射阶段写入本地文件

Hadoop将中间结果写入本地磁盘,将reducer的结果写入HDFS。HDFS是什么意思。它在物理上翻译成什么 最佳答案 HDFS是Hadoop分布式文件系统。从物理上讲,它是运行在集群每个节点上的程序,提供与本地文件系统非常相似的文件系统接口(interface)。但是,写入HDFS的数据不仅仅存储在本地磁盘上,而是分布在整个集群的磁盘上。存储在HDFS中的数据通常也会被复制,因此同一个数据block可能会出现在集群中的多个节点上。这提供了可靠的访问,因此一个节点的崩溃或繁忙不会阻止某人能够从HDFS读取任何特定数据block。

hadoop - 只有 reducer 阶段的工作?

在HadoopMapReduce中,中间输出(map输出)保存在本地磁盘中。我想知道是否可以只在reduce阶段启动一个作业,从本地磁盘读取mapoutput,对数据进行分区并执行reduce任务? 最佳答案 Mapper有一个基本实现,称为IdentityMapper,它基本上将所有键值对传递给Reducer。Reducer成对读取不同映射器生成的输出并发出键值对。Reducer的工作是处理来自映射器的数据。如果MapReduce程序员不使用JobConf.setMapperClass设置Mapper类,则IdentityMapp

java - Hadoop MapReduce 中 Map/Combine 之后和 Reduce 阶段之前的数据保存在哪里?

在Spark中,我们可以随时将数据保存在内存中,但我想知道在HadoopMapReduce的Map和Reduce阶段之间数据保存在哪里。它是保存在HDFS、磁盘还是RAM中?我的意思是,当数据被洗牌时(即在Map/Combiner之后和Reduce之前),它保存在哪里? 最佳答案 根据我在HadoopMapreduce方面的知识。1)Map任务输出写入本地磁盘。(在Map/Combiner之后和Reduce任务之前)2)Reducer任务输出写入HDFS。如果Mapreduce作业只有Mapper任务输出写在HDFS中希望这有帮助!

java - HADOOP - 减少简单 MR 作业的阶段挂起

这是一个简单的mapreduce作业。最初这只是将输入目录中的文件复制到输出目录的一种简单方法。Map阶段完成,但reduce阶段只是挂起。我究竟做错了什么?这是少量代码,这是整个工作:importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapreduce.Job;importorg.apache.hadoop.mapreduce.M

java - hadoop 中 map 阶段之后的 reduce 阶段如何工作

我正在阅读过去几周的hadoop框架,但我无法理解一个概念。可能这个问题是愚蠢的,如果是这样的话,那就对不起了。我的问题是假设我必须在一个太长的文件上创建一个字数统计程序,因此它分布在3个不同的数据节点上。现在,由于在所有三个数据节点上运行的映射阶段将创建为一个键值对,之后将对所有三个数据节点创建的所有map数据执行合并。但现在我无法理解下一阶段是什么。意味着合并数据将如何沿着不同的缩减阶段分布,将运行多少个缩减阶段以及将运行多少个数据节点。请清除我以上所有的困惑,因此我无法在hadoop中进一步移动。如果是这样的话,很抱歉提出一个愚蠢的问题。谢谢 最佳答案

file - Hadoop 作业从多个目录获取输入文件并在映射阶段检测每个文件

在一个作业中有两个输入文件,它们位于两个不同的目录中,在Hadoopjobtakinginputfilesfrommultipledirectories中,我们可以从多个目录读取文件。这些文件具有相同的名称,但它们位于不同名称的文件夹中。C1/part-0000C2/part-0000有没有可能在map阶段检测文件?就像是:publicvoidmap(LongWritablekey,Textvalue,Context上下文)抛出IOException,InterruptedException{如果(第一个文件){...context.write(outputKey,outputValu

hadoop - Pyspark es.query 仅在默认情况下有效

在pypspark中,我可以获得从ES返回的数据的唯一方法是保留es.query默认值。这是为什么?es_query={"match":{"key":"value"}}es_conf={"es.nodes":"localhost","es.resource":"index/type","es.query":json.dumps(es_query)}rdd=sc.newAPIHadoopRDD(inputFormatClass="org.elasticsearch.hadoop.mr.EsInputFormat",keyClass="org.apache.hadoop.io.NullWr