spark-hive_草庐IT

hadoop - 从vertica导入数据到hive

我尝试使用Sqoop将数据从Vertica上传到Hive。我可以看到它在HIVE上创建了一个文件和一个表，但是当我尝试从HIVE或文件中选择数据时，我看不到数据。它向我显示错误(文件列上没有分隔符)选择。这是我的代码:sqoopimport-m-1--drivercom.vertica.jdbc.Driver--connect"jdbc:vertica://serverName:5443/DBName"--username"user"--password"pass"--query'selectid,namefromcontactslimit10'--target-dir"folder/

scala - Spark Streaming textFileStream 复制

我正在尝试监视HDFS中的存储库以读取和处理复制到它的文件中的数据(将文件从本地系统复制到HDFS我使用hdfsdfs-put)，有时它会产生问题:SparkStreaming:java.io.FileNotFoundException:Filedoesnotexist:.COPYING所以我阅读了论坛中的问题和此处的问题SparkStreaming:java.io.FileNotFoundException:Filedoesnotexist:._COPYING_根据我读到的内容，问题与Spark流式传输在文件完成复制到HDFS和Github之前读取文件有关:https://githu

textFileStream Streaming section code FileInputDStream scala hadoop spark-streaming

scala - 无法解决 Spark 作业中的符号拆分

我在我的IntelliJIDE上运行一个spark应用程序作为Maven项目，我正在尝试创建一个rowRDD并将它们转换为数据帧并将其存储在hdfs中。SPARKVERSION:1.5.2SCALAVERSION:2.10.4我的代码:valrowRDD=dataframename.map(_.split("\t")).map(p=>Row(p(0),p(1),p(2),p(3)))它报告值拆分不是我的类包的成员并且报告应用程序不采用任何参数。存在一些依赖性问题，我需要这方面的帮助。注意:我已经完成了rowRDD的模式定义感谢支持最佳答案

scala Spark section code DataFrame hadoop apache-spark intellij-idea

hadoop - 如何从 HBase 读取记录然后存储到 Spark RDD(弹性分布式数据集)；并读取一个 RDD 记录然后写入 HBase？

所以我想写一段代码从HadoopHBase中读取一条记录，然后将其存储到SparkRDD(ResilientDistributedDatasets)中；并读取一条RDD记录然后写入HBase。我对这两者的了解为零，我需要使用AWS云或Hadoop虚拟机。请有人指导我从头开始。最佳答案请使用Scala中的基本代码，我们正在使用Scala读取HBase中的数据。同样可以写个建表把数据写入HBaseimportorg.apache.hadoop.hbase.client.{HBaseAdmin,Result}importorg.apa

HBase RDD 34 section hadoop apache-spark bigdata

java - 由于 ClosedChannelException (DFSOutputStream.checkClosed) 而导致的 Spark 作业失败

我有一个spark应用程序。我使用saveAsNewAPIHadoopDataset在hdfs上存储一个rdd，利用AvroKeyOutputFormat。对于大型RDD，有时我会收到太多ClosedChannelException，以至于应用程序最终中止。我在某处读到设置hadoopConf.set("fs.hdfs.impl.disable.cache","false");有帮助。以下是我如何保存我的rdd:hadoopConf.set("fs.hdfs.impl.disable.cache","false");finalJobjob=Job.getInstance(hadoopC

ClosedChannelException DFSOutputStream apache java DataFileWriter hadoop apache-spark hdfs avro

scala - Spark-scala 如何使用 HDFS 目录分区

为了减少处理时间，我按日期对数据进行分区，以便我只使用所需的日期数据(不是完整的表格)。所以现在在HDFS中，我的表格存储如下src_tbl//maindirtrg_tbl2016-01-01//subdir2015-12-302016-01-022015-12-312016-01-032016-01-012016-01-03现在我想从src_tbl中选择min(date)这将是2016-01-01从trg_tbl我想使用>=2016-01-01(src_tblmin(date))目录中的数据2016-01-01和2016-01-03数据`如何使用Spark-scala从hdfs选择所

scala Spark-scala code strong section hadoop apache-spark hdfs

java - org.apache.hive.jdbc.HiveStatement/org.apache.hadoop.hive.jdbc.HiveStatement 之间的区别

我一直在使用围绕Hadoop的产品，但对于使用Java开发应用程序还是个新手。我想用一些像HiveStatement这样的类，但是发现有同名类不同包。ex)org.apache.hive.jdbc.HiveStatement,org.apache.hadoop.hive.jdbc.HiveStatement.我在尝试将Statement对象转换为HiveStatement时注意到了这一点。我试图将对象转换为org.apache.hadoop.hive.jdbc.HiveStatement，但转换为org.apache.hive.jdbc.HiveStatement似乎对我来说是正确的案

HiveStatement apache code section java hadoop hive package

hadoop - 超出 Spark Job 错误 GC 开销限制

这个问题在这里已经有了答案:Errorjava.lang.OutOfMemoryError:GCoverheadlimitexceeded(22个答案)关闭6年前。我正在运行一个spark作业，我在spark-defaults.sh中设置了以下配置。我在名称节点中进行了以下更改。我有1个数据节点。我正在处理2GB的数据。spark.masterspark://master:7077spark.executor.memory5gspark.eventLog.enabledtruespark.eventLog.dirhdfs://namenode:8021/directoryspark.s

hadoop Spark section text apache-spark garbage-collection out-of-memory

hadoop - Apache Hive - 单次插入日期值

我正在尝试使用Hive将日期插入到日期列中。到目前为止，这是我尝试过的INSERTINTOtable1(EmpNo,DOB)VALUES('Clerk#0008000',cast(substring(from_unixtime(unix_timestamp(cast('2016-01-01'asstring),'yyyy-MM-dd')),1,10)asdate));和INSERTINTOtabletable1values('Clerk#0008000',cast(substring(from_unixtime(unix_timestamp(cast('2016-01-01'asstr

hadoop Apache 39 code section hiveql apache-hive

hadoop - 如何在 spark 中处理后发布单个 Parquet 文件

我有一个包含100,000条记录的Parquet文件。我想并行处理所有记录，我的处理将生成更多列。因此，如果我的Parquet文件有3列和100,000条记录，我的文件如下所示-colAcolBcolCaabbccaa1bb1cc1并行处理后，我想要一个包含相同列和3列的新Parquet文件。我的输出看起来像这样-colAcolBcolCcolDcolEcolFaabbccddeeffaa1bb1cc1dd1ee1ff1我想知道-在spark节点中并行运行后，如何将所有结果合并到1个parquet文件中？如何向现有文件添加更多列？如有任何帮助，我们将不胜感激。

后发何在 section Parquet code hadoop apache-spark bigdata