草庐IT

map_region

全部标签

sql - 改变 hive 中的现有 map

我有一个配置单元表,其中一列为map数据类型。map>现在我想在结构值中添加一列,如下所示:map>任何人都知道如何实现这一目标。提前致谢。 最佳答案 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-ChangeColumnName/Type/Position/Commentaltertabletchangecolumnmycolmycolmap>;请注意,默认情况下只有新分区会受到更改的影响。如果您希望它应用

sql - 错误 :Invalid table alias or column reference while using map in Hive

我正在执行以下配置单元查询:createorreplaceviewtest.hospasselectp.hosp_id,p.hosp_name,max(casewhen`p.my_map[1].id`isNULLthen1else0end)ashos_main_idfromarch.hospitalgroupbyp.hosp_id,p.hosp_name,p.my_map[1].id;Error:Invalidtablealiasorcolumnreference'p.my_map[1].id'.有map名称my_map>,那为什么我仍然收到错误消息:Error:Invalidtabl

java - 在 map 调用中获取 Spark 上的行

我尝试从HDFS中的文件聚合数据。我需要从那些对hbase中的特定表具有值(value)的数据中添加一些详细信息。但我有异常(exception):org.apache.spark.SparkException:Tasknotserializableatorg.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:166)atorg.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:158)atorg.apache.spa

java - Hadoop MapReduce 作业启动但找不到 Map 类?

我的MapReduce应用计算Hive表中字段值的使用情况。在包含来自/usr/lib/hadood、/usr/lib/hive和/usr/lib/的所有jar后,我设法从Eclipse构建并运行它hcatalog目录。它有效。经过多次挫折后,我也设法将其编译并作为Maven项目运行:4.0.0com.bigdata.hadoopFieldCountsjarFieldCounts0.0.1-SNAPSHOThttp://maven.apache.orgUTF-8junitjunit3.8.1testorg.apache.hadoophadoop-client2.3.0org.apach

algorithm - 使用 Map Reduce 的深度优先搜索

我已经在HadoopMapReduce(BreathFirstSearch)中成功实现了最短路径算法。但是我有一个问题:是否可以使用Hadoopmapreduce进行图形遍历“深度优先搜索”?任何链接..? 最佳答案 深度优先搜索的性质使其不适用于mapreduce作业。因为在进入另一条路径之前,您只遵循一条严格的路径。这导致您无法正确使用hadoop提供的可伸缩性。我不知道有什么好的工作实现,而且我很确定您不会找到一个以良好方式使用MapReduce范例的实现。如果您尝试自己在hadoop中实现图形算法,您可能想看看一些有用的框架

eclipse - "Not A Valid Jar"尝试运行 Map Reduce 作业时

我试图通过从eclipse构建一个jar来运行我的MapReduce作业,但是在尝试执行该作业时,我收到“不是有效的Jar”错误。我尝试点击链接NotavalidJar但这没有帮助。任何人都可以给我有关如何从eclipse构建jar以使其在Hadoop上运行的说明。我知道从eclipse构建Jar文件的过程,但是我不确定,我是否需要特别注意构建jar文件,以便它在Hadoop上运行。 最佳答案 当您提交命令时,请确保您有以下内容来执行命令:当您指示jar时,请确保您正确指向jar。使用绝对路径可能最容易确定。要获取绝对路径,如果您导

java - spark map 方法抛出序列化异常

我是Spark的新手,我在map函数中遇到序列化问题。这是代码的一些元素privateFunctionSparkMap()throwsIOException{returnnewFunction(){publicStringcall(Rowrow)throwsIOException{/*somecode*/}};}publicstaticvoidmain(String[]args)throwsException{MyClassmyClass=newMyClass();SQLContextsqlContext=newSQLContext(sc);DataFramedf=sqlContext

java - map reduce 有两个输入文件,一个文件基于另一个文件处理

我需要编写一个将输入作为两个输入文件的mapreduce。第一个输入文件如下所示:key1,25key1,35key1,60key2,30key3,45key3,65第二个输入文件如下:key1,-10key2,-20key3,-15我需要得到如下输出:key1,15key1,25key1,50key2,10key3,30key3,50(输出是第一个输入文件的值减去第二个输入文件的值)这怎么可能?mapper和reducer任务会是什么样子?我的做法如下:我想我必须有两个映射器,每个输入文件一个(一个映射器可以用来读取两个文件吗?)。映射器将简单地发出键和值。在reducer端,当我收

java - Hadoop Map-Reduce 并行执行 3 个 Mappers 并输出到 1 个 reducer

我有一个要求,我必须根据每个数据集的不同标准过滤3个不同的数据集,最后将它们联合起来并将它们聚合到一个reducer中。我有一个执行作业的Pig脚本,其中数据集的过滤按顺序发生。我想知道是否有可能为每个数据集并行运行Mappers,并将输出发送到1个reducer类。 最佳答案 尝试使用MultipleInputs和3个映射器来处理3个数据集。请参阅此链接以获取MultipleInputs的API-https://hadoop.apache.org/docs/stable/api/org/apache/hadoop/mapreduc

java - Hadoop 上次 map 作业卡住 - 需要帮助

我正在使用hadoopmap-reduce作业进行一些文本处理。我的工作已完成99.2%,并停留在上一个map工作上。map输出的最后几行如下所示。上次发生此问题时,我尝试打印出从map发出的键值,并注意到其中一个键具有大量与之关联的值,我认为它在对这些值进行排序时似乎卡住了。然后,我停止从map作业中发出该键,它工作正常。我想,同样的问题又发生了,打印出键值对是一项乏味的工作,因为这项工作很费时间。有更好的选择吗?如果他们在排序上花费太多时间,就像配置hadoop忘记几个键一样。有没有这样的。2010-10-2014:43:32,274INFOorg.apache.hadoop.ma