草庐IT

spark-hive

全部标签

java - 在 map 调用中获取 Spark 上的行

我尝试从HDFS中的文件聚合数据。我需要从那些对hbase中的特定表具有值(value)的数据中添加一些详细信息。但我有异常(exception):org.apache.spark.SparkException:Tasknotserializableatorg.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:166)atorg.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:158)atorg.apache.spa

hadoop - 在正在运行的 spark/hadoop 集群中添加一个 hdfs datanode

我有一个带有1个主节点和2个节点(工作节点+数据节点)的spark集群。我想添加另一个数据节点。问题是,当我执行hdfsdfs-setrep-R-w2时,结果是:1stdatanode->DFSUsed%:75.61%2nddatanode->DFSUsed%:66.78%3rddatanode->DFSUsed%:8.83%您知道如何平衡hdfs中的block,以便每个block大约为30->33%吗?谢谢 最佳答案 运行balancer,集群平衡实用程序。这将重新平衡数据节点之间的数据。hdfsbalancer-threshol

hadoop - 底层目录更改时Hive表能否自动更新

如果我像这样在某个S3(或HDFS)目录之上构建一个Hive表:createexternaltablenewtable(namestring)rowformatdelimitedfieldsterminatedby','storedastextfilelocation's3a://location/subdir/';当我将文件添加到该S3位置时,Hive表不会自动更新。仅当我在该位置创建新的Hive表时才会包含新数据。有没有一种方法可以构建Hive表(可能使用分区),以便每当将新文件添加到底层目录时,Hive表会自动显示该数据(无需重新创建Hive表)? 最

hadoop - 在 Hive 中启动 MapReduce 作业的标准

我是Hadoop的新手,所以请帮我解决这个基本问题。当我做"select*fromtablewhere;"在Hive中,我知道它将启动mapreduce,因为它需要对底层HDFS文件应用过滤。但是当我做select*fromtable在Hive上没有任何where子句,有时会启动mapreduce,有时不会。我的理解是,理想情况下它不应该启动mapreduce,因为没有过滤条件。那么有人可以解释一下为什么在少数情况下mapreduce会在Hive上启动吗?提前致谢。 最佳答案 这由两个Hive属性控制hive.fetch.task.

hadoop - 分区表上的 Hive alter 语句

我在Hive中有一个空的分区表,我正在尝试命名列的名称以及表中列的顺序:>describeformattedtest_hive;col_namedata_type注释col1日期col2字符串col3字符串abc十进制(11,2)分区信息col_namedata_type注释第mth_year字符串尝试将abc重命名为xyz并将其移动到col1之后,但是当我运行时altertabletest_hivepartition(mth_year)CHANGEabcxyzDECIMAL(11,2)AFTERcol1;但出现错误:FAILED:SemanticException[Error1000

json - spark.RDD take(n) 返回元素n的数组,n次

我正在使用来自https://github.com/alexholmes/json-mapreduce的代码将多行json文件读入RDD。vardata=sc.newAPIHadoopFile(filepath,classOf[MultiLineJsonInputFormat],classOf[LongWritable],classOf[Text],conf)我打印出前n个元素来检查它是否正常工作。data.take(n).foreach{p=>val(line,json)=pprintlnprintln(newJSONObject(json.toString).toString(4)

json - 使用 JsonSerDe 的 Hive 中的 ClassNotFoundException

我们在CDH5上使用Hive0.12。我们使用它来将JSON记录转换为柱状格式,使用https://github.com/rcongiu/Hive-JSON-Serde中的org.openx.data.jsonserde.JsonSerDe。.我们读取的外部表定义为:addjarjson-serde-1.3-SNAPSHOT-jar-with-dependencies.jar;sethive.exec.dynamic.partition.mode=nonstrict;sethive.exec.max.dynamic.partitions.pernode=366;sethive.stat

hadoop - MapReduce 在哪些类型的用例中优于 Spark?

我刚刚参加了一个关于Spark的入门类(class),并询问演讲者Spark是否可以完全替代MapReduce,并被告知Spark可以在任何用例中替代MapReduce,但在某些特定用例中,MapReduce实际上更快比Spark。MapReduce可以比Spark更快解决的用例有哪些特点? 最佳答案 请原谅我quotingmyselffromQuora,但是:对于MapReduce设计的数据并行、一次性、类似ETL的作业,MapReduce比Spark等价物更轻量级Spark相当成熟,YARN现在也是如此,但Spark-on-YA

Hadoop Hive 外部表位置?

我正在研究HIVE。我应该在哪里创建一个外部表。在我的本地文件系统中或在HDFS文件系统中?。推荐用于项目。 最佳答案 它必须位于集群节点可访问的文件系统中。虽然99%的情况下这意味着集群文件系统,而99%的情况下这意味着HDFS,但这并不是严格意义上的:Hadoop可以访问其他文件系统,简单的例子是S3FileSystem或Azureblobs.您不能用于外部Hive表的一个地方是您的本地文件系统。本地文件URI对远程节点没有意义。它可能适用于伪分布式(单节点)“集群”,但不适用于现实世界。

hadoop - 哪个条件函数在HIVE中性能有效?如果还是案例?

ConditionalFunction中的哪个在HIVE中性能有效?如果还是案例? 最佳答案 我可以根据与Hortonworks的专家一起优化复杂查询的经验来谈一谈。我们处理了包含多个IF/THEN和CASE的数百行查询。性能差异小到无法衡量。担心您的连接-即mapside与侧数据与reduce侧连接-和UDF:这些是可以找到性能改进的地方。我们对许多领域进行了大量调整,包括许多不同类型和偏斜的联接、UDF和内联View。这不是一个曾经浮出水面的区域。 关于hadoop-哪个条件函数在H