spark-hive_草庐IT

scala - Spark DataFrame 并行性

下面是我使用ApacheSpark的用例1)我在HDFS上有大约2500个Parquet文件，文件大小因文件而异。2)我需要处理每个parquet文件并构建一个新的DataFrame并将一个新的DataFrame写入orc文件格式。3)我的Spark驱动程序是这样的。我正在迭代每个文件，处理单个Parquet文件，创建一个新的DataFrame并将一个新的DataFrame编写为ORC，下面是代码片段。valfs=FileSystem.get(newConfiguration())valparquetDFMap=fs.listStatus(newPath(inputFilePath))

scala - 使用 Oozie 将 Spark 转为 Hbase

我试图从Spark在Hbase中创建一个表并插入数据，从中读取数据。当我从命令行运行spark作业时它工作正常。但是，每次我尝试使用oozie运行它时，它都会抛出不同类型的异常。这是我的sparkhbase代码valsc=newSparkContext("local","Hbasespark")valtableName="Morbidity_Dummy2"valconf=HBaseConfiguration.create()//AddlocalHBaseconfconf.addResource(newPath("file:///opt/cloudera/....../hbase-sit

转为 scala hbase 34 apache hadoop apache-spark oozie

hadoop - Hive 中异常的日期时间字符串解析

您好，我正在尝试在配置单元中解析以下字符串"2016-09-30T21:59:58.093Z"我想从中提取年、月、日和小时。我可以使用year()、day()和to_date()函数来提取日期，但我无法从中获取小时数。如果我这样做hour("2016-09-30T21:59:58.093Z")或unix_timestamp("2016-09-30T21:59:58.093Z")它们将返回NULL。有人可以提出建议吗？谢谢最佳答案 hive>selectfrom_unixtime(unix_timestamp("2016-09-30

hadoop Hive section code pre hiveql

java - Spark 和 Java : Error ClassCastException

我完全按照这个例子https://github.com/rathboma/hadoop-framework-examples/tree/master/spark当我尝试运行时，我收到此消息:java.lang.ClassCastException:org.apache.spark.api.java.Optionalcannotbecasttocom.google.common.base.Optional我不知道如何修复它，因为我是使用Spark的新手。谢谢!!有什么建议吗？最佳答案这是因为您使用Spark1.x编译代码，但在Sp

ClassCastException Spark section hadoop-framework-examples java maven hadoop apache-spark

hadoop - hive -e 带分隔符

我正在尝试从配置单元表中导出数据，如下所示，但它正在生成以制表符作为分隔符的文件。导出时是否可以指定分隔符为逗号或制表符？hive-e"usedefault;sethive.cli.print.header=true;select*fromtest1;">/temp/test.txt(or.csv)谢谢J 最佳答案您可以通过管道传输数据并使用简单的sed命令将数据转换为所需的输出格式。下面的sed命令用逗号替换制表符。默认输出是Tab。您可以相应地更改输出。hive-e"usedefault;sethive.cli.print.h

hadoop hive section 制表符 hiveql

java - 如何修复 Hadoop : the Definitive Guide? 中 Hive UDAF 示例的 NoMatchingMethodException

我想计算温度的平均值。然后我创建了一个名为“mean”的UDAF。我按照书中建议的步骤进行操作并得到了NoMatchingMethodException。FAILED:NoMatchingMethodExceptionNomatchingmethodforclasscom.zzy.hadoopbook.hive.Meanwith(double).Possiblechoices:_FUNC_(struct)这是我的HiveQL:DROPTABLEIFEXISTSrecords3;CREATETABLErecords3(yearSTRING,temperatureDOUBLE,qualit

NoMatchingMethodException Definitive partial code section java hadoop hive

sql - Hive SQL Integer YYYYMM 前几个月

我想创建一个查询最近2个月的SQL语句。例如:Select*fromxwheresampledate目前我正在使用这个:(year(from_unixtime(unix_timestamp()))*100+month(from_unixtime(unix_timestamp())))-1但它在一年的前两个月返回错误的语句:(我的想法是用日期计算，然后把它改成yyyymm整数格式。有什么想法吗？最佳答案你能试试这个吗:SELECTcolomnFROMtableWHEREdate>(SELECTadd_months(from_uni

Integer YYYYMM unix_timestamp section from_unixtime sql hadoop hive hiveql

apache-spark - 如何在具有不同内存和核心数量的集群上调整 spark 作业

我正在开发一个spark项目，我正在使用具有以下配置的3个节点的hadoop集群:8coresand16goofRam(Namenode,ApplicationMaster,nodemanagerandsparkmasterandworker).4coresand8goofRam(datanode,nodemanagerandworker)Ram的4cores和4go(datanode、nodemanager和worker)所以我使用以下配置:pyspark--masteryarn-client--driver-memory3g--executor-memory1g--num-exec

spark 上调 section executor strong apache-spark hadoop pyspark

apache-spark - spark.executor.extraJavaOptions 在 spark-submit 中被忽略

我是一名新手，正在尝试介绍本地Spark工作。这是我尝试执行的命令，但我收到一条警告，指出我的执行程序选项被忽略，因为它们是非spark配置属性。错误:Warning:Ignoringnon-sparkconfigproperty:“spark.executor.extraJavaOptions=javaagent:statsd-jvm-profiler-2.1.0-jar-with-dependencies.jar=server=localhost,port=8086,reporter=InfluxDBReporter,database=profiler,username=profi

spark extraJavaOptions profiler section apache-spark hadoop

sql - 使用时间轴列作为 Hive 分区字段时出现异常

我正在尝试将数据从普通表加载到Hive分区表。这是我的普通表格语法:createtablex(namestring,date1string);这是我的新分区表语法:createtabley(namestring,date1string)partitionedby(timestamp1string);下面是我是如何加载数据到y的:insertintotableyPARTITION(SUBSTR(date1,0,2))selectname,date1fromx;这是我的异常(exception):FAILED:ParseExceptionline1:39missing)at'('near'

时出 Hive section code pre sql hadoop hive-partitions