草庐IT

saveAsTable

全部标签

hadoop - Sparksql saveAsTable 调用错误的 hdfs 端口

我用hadoop2.6.3、spark2.0.0(之前是1.6.1)、hive2.0配置了一个hadoop集群;最近,我更改了hadoop端口规范。一项重大更改是针对core-site.xml中的fs.defaultFS。我从改变了这个属性hdfs://10.104.90.40:9000到hdfs://10.104.90.40:8020之后我重述了hadoop。现在我想用代码编写一个表来使用SparkSql进行配置:df=sqlContext.sql('select*fromvehicle')df.take(1)//thiscanshowthecontentcorrectlydf.wr

scala - Spark : what options can be passed with DataFrame. saveAsTable 或 DataFrameWriter.options?

开发人员和API文档均未包含有关可以在DataFrame.saveAsTable或DataFrameWriter.options中传递哪些选项的任何引用,它们会影响Hive的保存table。我希望在这个问题的答案中,我们可以汇总有助于Spark开发人员的信息,他们希望更好地控制Spark保存表的方式,并可能为改进Spark的文档提供基础。 最佳答案 您在任何地方都看不到options文档的原因是它们是特定于格式的,开发人员可以使用一组新的options继续创建自定义写入格式。但是,对于少数支持的格式,我列出了spark代码本身提到的

scala - `saveAsTable` 之后无法从 Hive 查询 Spark DF - Spark SQL 特定格式,与 Hive 不兼容

我正在尝试将数据框另存为外部表,它将使用spark和可能使用hive进行查询,但不知何故,我无法使用hive查询或查看任何数据。它适用于spark。重现问题的方法如下:scala>println(spark.conf.get("spark.sql.catalogImplementation"))hivescala>spark.conf.set("hive.exec.dynamic.partition","true")scala>spark.conf.set("hive.exec.dynamic.partition.mode","nonstrict")scala>spark.conf.s

hadoop - Spark Sql 1.5 dataframe saveAsTable 如何添加配置单元表属性

我在配置单元上运行sparksql。我需要在创建新的配置单元表时添加auto.purge表属性。我尝试使用以下代码在调用saveAsTable方法时添加选项:inputDF.write.option("auto.purge"->"true").saveAsTable(hiveTableName)上面的代码行在表的WITHSERDEPROPERTIES下添加了一个属性。我需要在配置单元DDL的TBLPROPERTIES部分下添加此属性。 最佳答案 最后我找到了一个解决方案,我不确定这是否是最好的解决方案。不幸的是,Spark1.5sq

apache-spark - 写入数据后使用 .saveAsTable 写入 HDFS 时出现 TImeout 错误

我在EMR上运行Spark2.3,并尝试使用Scala将数据写入HDFS,如下所示:dataframe.write.partitionBy("column1").bucketBy(1,"column2").sortBy("column2").mode("overwrite").format("parquet").option("path","hdfs:///destination/").saveAsTable("result")写入数据并完成任务后,我收到超时错误。错误发生后,我可以在HDFS中看到已完全处理的数据。为什么会出现这个错误?有什么意义吗?看起来主节点正在尝试与另一个IP(

hadoop - Spark SQL saveAsTable 返回空结果

我正在使用以下代码在SparkSQL中创建数据/将数据插入到Hive表中:valsc=SparkSession.builder().appName("App").master("local[2]").config("spark.sql.warehouse.dir","file:///tmp/spark-warehouse").enableHiveSupport().getOrCreate()//actualcoderesult.createOrReplaceTempView("result")result.write.format("parquet").partitionBy("yea

hadoop - 为什么 DataFrame.saveAsTable ("df") 将表保存到不同的 HDFS 主机?

我已经用Spark(1.4.0)配置了Hive(1.13.1),我可以从hive访问所有数据库和表,我的仓库目录是hdfs://192.168.1.17:8020/用户/hive/仓库但是,当我尝试使用df.saveAsTable("df")函数通过Spark-Shell(使用master)将Dataframe保存到Hive中时,我遇到了这个错误。15/07/0314:48:59INFOaudit:ugi=userip=unknown-ip-addrcmd=get_database:default15/07/0314:48:59INFOHiveMetaStore:0:get_table