apache-spark-1.6

Java spark 到 hive 表插入到动态分区异常

我有以下代码，其中我将数据插入到表txnaggr_rt_fact中，该表有2列分区txninterval和intervaltype。我在sparksql中启用了动态分区。如果分区已经存在则没有问题。数据正在插入到表中，但如果分区不存在，则会出现异常，但如果分区已经存在，则没有问题。SparkSessionspark=SparkSession.builder().appName("JavaSparkHiveExample").config("spark.sql.warehouse.dir","hdfs://localhost:8020/user/hive/warehouse").conf

apache-spark - Yarn 的 "Application Type"在哪里/如何定义？

如果向ApacheYARN集群提交新作业，状态页面通常会指示作业实际是如何提交的(除其他事项外):ApplicationType:SPARK这表明用户很可能使用spark-submit向资源管理器发布了一个新作业。是否可以像更改应用程序名称一样通过参数更改该字符串的值？最佳答案应用类型在Spark设置yarn应用上下文时设置。AFAIK，无法更改某些配置的方式。如果它真的很重要，您将不得不在源代码中覆盖它。下面的实现，https://github.com/apache/spark/blob/01c3dfab158d40653f8

apache-spark Application section spark apache hadoop hadoop-yarn

apache-spark - 齐柏林飞艇 : Not Showing Hive Database/tables in HDP3. 0

我已经安装了Hortonworkshdp3.0并配置了Zeppelin。当我运行spark或sql时，Zeppelin只显示默认数据库(这是Spark的默认数据库，位置为“/apps/spark/warehouse”，而不是Hive的默认数据库)。这可能是因为hive.metastore.warehouse.dir属性不是从hive-site.xml设置的，而zeppelin是从Spark配置(spark.sql.warehouse.dir)中选择的。我对spark也有类似的问题，这是由于spark-conf目录中的hive-site.xml文件，我能够通过将hive-site.xml

apache-spark Database spark section hive-site hadoop hive hortonworks-data-platform apache-zeppelin

hadoop - 是否可以将 mapR 与纯 apache hadoop 结合起来？

我是hadoop的新手。我听说mapR是挂载hadoopHDFS的更好方法，而不是fuse。但大多数相关文章只是描述mapRhadoop而不是纯apachehadoop。有人有使用mapR安装纯apachehadoop的经验吗？提前致谢。最佳答案 MapR不仅仅是一种挂载HDFS的方式。MapR包括Hadoop和许多Apache生态系统组件以及许多其他非Apache组件，例如Cascading。它还包括包含Solr的LucidWorks。MapR还包括HDFS的重新实现，称为MaprFS。MaprFS具有更高的性能，具有读写语义，

hadoop apache section MapR

hadoop - 用于故障转移的 Apache HBase 复制

ApacheHBase:Replication:Slave/Replication集群是否也用于故障转移处理而不是单独的数据恢复？最佳答案是的。HBaseReplication可以用作灾难恢复解决方案，并有助于提供更高的可用性或故障转移。我假设您已经完成了这个page其中谈到了HBase复制。关于hadoop-用于故障转移的ApacheHBase复制，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co

hadoop Apache section Replication strong nosql hbase bigdata

java - apache avro 中的 mapred 和 mapreduce 包有什么区别？

我正在从事我的项目以整合apacheavro进入我的MapR程序。然而，我很困惑与mapred相比，通过使用新的mapreduce包。latter详细说明如何使用在不同的情况下，新的信息较少。但是我知道的是，它们分别对应hadoop的新旧接口(interface)。有没有人有使用mapreduce接口(interface)的经验或例子对于输入为非Avro数据的作业(例如TextInputFormat)文件输出为avro文件。最佳答案这两个包代表相应的Hadoopmapred和mapreduceAPI的输入/输出格式、

mapreduce apache section strong noreferrer java hadoop avro

使用 Spark 抽取 MySQL 数据到 Hive 时某列字段值出现异常（字段错位）

Spark MySQL span class token hive 大数据数据库

Spark编程实验二：RDD编程初级实践

目录一、目的与要求二、实验内容三、实验步骤1、pyspark交互式编程2、编写独立应用程序实现数据去重3、编写独立应用程序实现求平均值问题4、三个综合实例四、结果分析与实验体会一、目的与要求1、熟悉Spark的RDD基本操作及键值对操作；2、熟悉使用RDD编程解决实际具体问题的方法。二、实验内容1、pyspark交互式编程给定数据集data1.txt，包含了某大学计算机系的成绩，数据格式如下所示：Tom,DataBase,80Tom,Algorithm,50Tom,DataStructure,60Jim,DataBase,90Jim,Algorithm,60Jim,DataStructure,

编程初级 xff xff0c xff0 spark 大数据分布式 RDD

hadoop - Flume--找不到主类 : org. apache.flume.tools.GetJavaProperty

我正在使用clouderaCDH4.4。当我运行flumecmd时-"bin/flume-ngagent-nagentA-fconf/MultipleFlumes.properties-Dflume.root.logger=INFO,console"我遇到了一个错误:[cloudera@localhostFlume]$bin/flume-ngagent-nagentA-fconf/MultipleFlumes.properties-Dflume.root.logger=INFO,consoleWarning:Noconfigurationdirectoryset!Use--confto

GetJavaProperty hadoop java URLClassLoader ClassLoader flume

mysql - Apache Sqoop 连接错误

尝试使用sqoop从mysql数据库中列出数据库时出现以下错误。我正在使用ClouderaVMCDH4，如果它没有默认预安装MySql。我按照cloudera教程安装了MySql。现在我试图从MySQl中列出数据库，但它失败了。是否存在任何jdbc连接问题？[cloudera@localhost~]$sqooplist-databases--connect"jdbc:mysql://localhost.localdomain"--userroot--passwordaaaaaaaaWarning:/usr/lib/sqoop/../accumulodoesnotexist!Accumu

Apache mysql password section specify hadoop jdbc bigdata sqoop