草庐IT

apache-spark-1.6

全部标签

Java spark 到 hive 表插入到动态分区异常

我有以下代码,其中我将数据插入到表txnaggr_rt_fact中,该表有2列分区txninterval和intervaltype。我在sparksql中启用了动态分区。如果分区已经存在则没有问题。数据正在插入到表中,但如果分区不存在,则会出现异常,但如果分区已经存在,则没有问题。SparkSessionspark=SparkSession.builder().appName("JavaSparkHiveExample").config("spark.sql.warehouse.dir","hdfs://localhost:8020/user/hive/warehouse").conf

apache-spark - Yarn 的 "Application Type"在哪里/如何定义?

如果向ApacheYARN集群提交新作业,状态页面通常会指示作业实际是如何提交的(除其他事项外):ApplicationType:SPARK这表明用户很可能使用spark-submit向资源管理器发布了一个新作业。是否可以像更改应用程序名称一样通过参数更改该字符串的值? 最佳答案 应用类型在Spark设置yarn应用上下文时设置。AFAIK,无法更改某些配置的方式。如果它真的很重要,您将不得不在源代码中覆盖它。下面的实现,https://github.com/apache/spark/blob/01c3dfab158d40653f8

apache-spark - 齐柏林飞艇 : Not Showing Hive Database/tables in HDP3. 0

我已经安装了Hortonworkshdp3.0并配置了Zeppelin。当我运行spark或sql时,Zeppelin只显示默认数据库(这是Spark的默认数据库,位置为“/apps/spark/warehouse”,而不是Hive的默认数据库)。这可能是因为hive.metastore.warehouse.dir属性不是从hive-site.xml设置的,而zeppelin是从Spark配置(spark.sql.warehouse.dir)中选择的。我对spark也有类似的问题,这是由于spark-conf目录中的hive-site.xml文件,我能够通过将hive-site.xml

hadoop - 是否可以将 mapR 与纯 apache hadoop 结合起来?

我是hadoop的新手。我听说mapR是挂载hadoopHDFS的更好方法,而不是fuse。但大多数相关文章只是描述mapRhadoop而不是纯apachehadoop。有人有使用mapR安装纯apachehadoop的经验吗?提前致谢。 最佳答案 MapR不仅仅是一种挂载HDFS的方式。MapR包括Hadoop和许多Apache生态系统组件以及许多其他非Apache组件,例如Cascading。它还包括包含Solr的LucidWorks。MapR还包括HDFS的重新实现,称为MaprFS。MaprFS具有更高的性能,具有读写语义,

hadoop - 用于故障转移的 Apache HBase 复制

ApacheHBase:Replication:Slave/Replication集群是否也用于故障转移处理而不是单独的数据恢复? 最佳答案 是的。HBaseReplication可以用作灾难恢复解决方案,并有助于提供更高的可用性或故障转移。我假设您已经完成了这个page其中谈到了HBase复制。 关于hadoop-用于故障转移的ApacheHBase复制,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.co

java - apache avro 中的 mapred 和 mapreduce 包有什么区别?

我正在从事我的项目以整合apacheavro进入我的MapR程序。然而,我很困惑与ma​​pred相比,通过使用新的ma​​preduce包。latter详细说明如何使用在不同的情况下,新的信息较少。但是我知道的是,它们分别对应hadoop的新旧接口(interface)。有没有人有使用ma​​preduce接口(interface)的经验或例子对于输入为非Avro数据的作业(例如TextInputFormat)文件输出为avro文件。 最佳答案 这两个包代表相应的Hadoopmapred和mapreduceAPI的输入/输出格式、

使用 Spark 抽取 MySQL 数据到 Hive 时某列字段值出现异常(字段错位)

文章目录源数据描述问题复现问题解析问题解决源数据描述在MySQL中建立了表order_info,其字段信息如下所示:+--------------------+------------------+------+-----+-------------------+-----------------------------+|Field|Type|Null|Key|Default|Extra|+--------------------+------------------+------+-----+-------------------+-----------------------------

Spark编程实验二:RDD编程初级实践

目录一、目的与要求二、实验内容三、实验步骤1、pyspark交互式编程2、编写独立应用程序实现数据去重3、编写独立应用程序实现求平均值问题4、三个综合实例四、结果分析与实验体会一、目的与要求1、熟悉Spark的RDD基本操作及键值对操作;2、熟悉使用RDD编程解决实际具体问题的方法。二、实验内容1、pyspark交互式编程给定数据集data1.txt,包含了某大学计算机系的成绩,数据格式如下所示:Tom,DataBase,80Tom,Algorithm,50Tom,DataStructure,60Jim,DataBase,90Jim,Algorithm,60Jim,DataStructure,

hadoop - Flume--找不到主类 : org. apache.flume.tools.GetJavaProperty

我正在使用clouderaCDH4.4。当我运行flumecmd时-"bin/flume-ngagent-nagentA-fconf/MultipleFlumes.properties-Dflume.root.logger=INFO,console"我遇到了一个错误:[cloudera@localhostFlume]$bin/flume-ngagent-nagentA-fconf/MultipleFlumes.properties-Dflume.root.logger=INFO,consoleWarning:Noconfigurationdirectoryset!Use--confto

mysql - Apache Sqoop 连接错误

尝试使用sqoop从mysql数据库中列出数据库时出现以下错误。我正在使用ClouderaVMCDH4,如果它没有默认预安装MySql。我按照cloudera教程安装了MySql。现在我试图从MySQl中列出数据库,但它失败了。是否存在任何jdbc连接问题?[cloudera@localhost~]$sqooplist-databases--connect"jdbc:mysql://localhost.localdomain"--userroot--passwordaaaaaaaaWarning:/usr/lib/sqoop/../accumulodoesnotexist!Accumu