spark-hive

java - 在 map 调用中获取 Spark 上的行

我尝试从HDFS中的文件聚合数据。我需要从那些对hbase中的特定表具有值(value)的数据中添加一些详细信息。但我有异常(exception):org.apache.spark.SparkException:Tasknotserializableatorg.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:166)atorg.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:158)atorg.apache.spa

hadoop - 在正在运行的 spark/hadoop 集群中添加一个 hdfs datanode

我有一个带有1个主节点和2个节点(工作节点+数据节点)的spark集群。我想添加另一个数据节点。问题是，当我执行hdfsdfs-setrep-R-w2时，结果是:1stdatanode->DFSUsed%:75.61%2nddatanode->DFSUsed%:66.78%3rddatanode->DFSUsed%:8.83%您知道如何平衡hdfs中的block，以便每个block大约为30->33%吗？谢谢最佳答案运行balancer，集群平衡实用程序。这将重新平衡数据节点之间的数据。hdfsbalancer-threshol

hadoop datanode section code apache-spark hdfs

hadoop - 底层目录更改时Hive表能否自动更新

如果我像这样在某个S3(或HDFS)目录之上构建一个Hive表:createexternaltablenewtable(namestring)rowformatdelimitedfieldsterminatedby','storedastextfilelocation's3a://location/subdir/';当我将文件添加到该S3位置时，Hive表不会自动更新。仅当我在该位置创建新的Hive表时才会包含新数据。有没有一种方法可以构建Hive表(可能使用分区)，以便每当将新文件添加到底层目录时，Hive表会自动显示该数据(无需重新创建Hive表)？最

底层 hadoop section stackoverflow Hive amazon-s3 hdfs

hadoop - 在 Hive 中启动 MapReduce 作业的标准

我是Hadoop的新手，所以请帮我解决这个基本问题。当我做"select*fromtablewhere;"在Hive中，我知道它将启动mapreduce，因为它需要对底层HDFS文件应用过滤。但是当我做select*fromtable在Hive上没有任何where子句，有时会启动mapreduce，有时不会。我的理解是，理想情况下它不应该启动mapreduce，因为没有过滤条件。那么有人可以解释一下为什么在少数情况下mapreduce会在Hive上启动吗？提前致谢。最佳答案这由两个Hive属性控制hive.fetch.task.

MapReduce hadoop code section hive

hadoop - 分区表上的 Hive alter 语句

我在Hive中有一个空的分区表，我正在尝试命名列的名称以及表中列的顺序:>describeformattedtest_hive;col_namedata_type注释col1日期col2字符串col3字符串abc十进制(11,2)分区信息col_namedata_type注释第mth_year字符串尝试将abc重命名为xyz并将其移动到col1之后，但是当我运行时altertabletest_hivepartition(mth_year)CHANGEabcxyzDECIMAL(11,2)AFTERcol1;但出现错误:FAILED:SemanticException[Error1000

hadoop alter section code pre hive hiveql

json - spark.RDD take(n) 返回元素n的数组，n次

我正在使用来自https://github.com/alexholmes/json-mapreduce的代码将多行json文件读入RDD。vardata=sc.newAPIHadoopFile(filepath,classOf[MultiLineJsonInputFormat],classOf[LongWritable],classOf[Text],conf)我打印出前n个元素来检查它是否正常工作。data.take(n).foreach{p=>val(line,json)=pprintlnprintln(newJSONObject(json.toString).toString(4)

spark json code pre section scala hadoop apache-spark

json - 使用 JsonSerDe 的 Hive 中的 ClassNotFoundException

我们在CDH5上使用Hive0.12。我们使用它来将JSON记录转换为柱状格式，使用https://github.com/rcongiu/Hive-JSON-Serde中的org.openx.data.jsonserde.JsonSerDe。.我们读取的外部表定义为:addjarjson-serde-1.3-SNAPSHOT-jar-with-dependencies.jar;sethive.exec.dynamic.partition.mode=nonstrict;sethive.exec.max.dynamic.partitions.pernode=366;sethive.stat

ClassNotFoundException JsonSerDe java CliDriver apache json hadoop hive

hadoop - MapReduce 在哪些类型的用例中优于 Spark？

我刚刚参加了一个关于Spark的入门类(class)，并询问演讲者Spark是否可以完全替代MapReduce，并被告知Spark可以在任何用例中替代MapReduce，但在某些特定用例中，MapReduce实际上更快比Spark。MapReduce可以比Spark更快解决的用例有哪些特点？最佳答案请原谅我quotingmyselffromQuora，但是:对于MapReduce设计的数据并行、一次性、类似ETL的作业，MapReduce比Spark等价物更轻量级Spark相当成熟，YARN现在也是如此，但Spark-on-YA

优于 MapReduce Spark section hadoop apache-spark

Hadoop Hive 外部表位置？

我正在研究HIVE。我应该在哪里创建一个外部表。在我的本地文件系统中或在HDFS文件系统中？。推荐用于项目。最佳答案它必须位于集群节点可访问的文件系统中。虽然99%的情况下这意味着集群文件系统，而99%的情况下这意味着HDFS，但这并不是严格意义上的:Hadoop可以访问其他文件系统，简单的例子是S3FileSystem或Azureblobs.您不能用于外部Hive表的一个地方是您的本地文件系统。本地文件URI对远程节点没有意义。它可能适用于伪分布式(单节点)“集群”，但不适用于现实世界。

Hadoop Hive section noreferrer noopener external

hadoop - 哪个条件函数在HIVE中性能有效？如果还是案例？

ConditionalFunction中的哪个在HIVE中性能有效？如果还是案例？最佳答案我可以根据与Hortonworks的专家一起优化复杂查询的经验来谈一谈。我们处理了包含多个IF/THEN和CASE的数百行查询。性能差异小到无法衡量。担心您的连接-即mapside与侧数据与reduce侧连接-和UDF:这些是可以找到性能改进的地方。我们对许多领域进行了大量调整，包括许多不同类型和偏斜的联接、UDF和内联View。这不是一个曾经浮出水面的区域。关于hadoop-哪个条件函数在H

中性 hadoop section stackoverflow hive hiveql

133 134 135136137 138 139