spark-hive

hadoop - 从 Apache Spark 查询外部配置单元中存在的表

这个问题在这里已经有了答案:HowtoconnectSparkSQLtoremoteHivemetastore(viathriftprotocol)withnohive-site.xml?(11个答案)关闭2年前。我对hadoop生态系统比较陌生。我的目标是使用ApacheSpark读取配置单元表并对其进行处理。Hive在EC2实例中运行。而Spark在我的本地机器上运行。为了制作原型(prototype)，我按照here上的步骤安装了ApacheHadoop。.我也添加了所需的环境变量。我已经使用$HADOOP_HOME/sbin/start-dfs.sh启动了dfs我已经按照her

hadoop - java.io.NotSerializableException : org. apache.spark.InterruptibleIterator 在 spark java 中执行 mapPartition() 时

我正在尝试对示例数据执行简单的SparkRDD转换mapPartition()。但在这个过程中，我得到了java.io.NotSerializableException:org.apache.spark.InterruptibleIterator异常。这是我的异常(exception):java.io.NotSerializableException:org.apache.spark.InterruptibleIteratorSerializationstack:-objectnotserializable(class:org.apache.spark.InterruptibleIte

spark NotSerializableException scala apache hadoop apache-spark iterator rdd partitioning

hadoop - 使用 Spark Sql 查询 hdfs

我在hdfs中有一个csv文件，我如何用sparkSQL查询这个文件？例如我想对特殊列进行选择请求并将结果再次存储到Hadoop分布式文件系统谢谢最佳答案可以通过创建Dataframe来实现。valdataFrame=spark.sparkContext.textFile("examples/src/main/resources/people.csv").map(_.split(",")).map(attributes=>Person(attributes(0),attributes(1).trim.toInt)).toDF()

hadoop Spark section attributes stackoverflow apache-spark hdfs apache-spark-sql

sql - Hive 复杂类型来处理一对多关系

如何使用Hive复杂类型处理一对多关系？例如，给定两个表:artist:artist_id,first_name,last_namesong:song_id,song_name,song_date,artist_id如何编写hiveql或sql以将歌曲集合包含到独特的艺术家中，即例如112,drew,jackson,{10:[hill,1992],13:[away,2011],....}113,maria,mcmillan,{25:[denial,2000],26:[fly,1990],....} 最佳答案 selecta.arti

Hive sql artist section artist_id hadoop

hadoop - Sqoop import-all-table to hive 在特定数据库中失败

我正在执行下面的sqoop命令sqoopimport-all-tables-m1\--connect"jdbc:mysql://nn01.itversity.com:3306/retail_db"\--username=retail_dba\--password=itversity\--hive-import\--hive-home/apps/hive/warehouse\--hive-overwrite\--hive-databasegrv_sqoop_import\--create-hive-table\--compress\--compression-codecorg.apach

import-all-table hadoop section code hive sqoop

hadoop - 如何使用 Yarn 在 Cloudera 上添加 Spark 工作节点

我们有cloudera5.2，用户希望开始使用Spark的全部潜力(在分布式模式下，它可以利用HDFS的数据局部性)，该服务已经安装并且可以在cloudera管理器状态(在home页面)但是当单击服务然后单击“实例”时，它只显示历史服务器角色，而在其他节点中显示网关服务器角色。根据我对Spark架构的理解，你有一个主节点和工作节点(与HDFS数据节点一起生活)所以在cloudera管理器中我尝试了“添加角色实例”，但只有“网关”角色可用。如何将Sparks工作节点(或执行程序)角色添加到具有HDFS数据节点的主机？还是没有必要(我认为由于yarn，yarn负责创建执行程序和应用程序主机

Cloudera hadoop Spark section Standalone apache-spark cloudera-cdh cloudera-manager

hadoop - 边缘节点上的 Spark 提交

我正在通过我的边缘节点提交我的spark-submit命令。为此，我使用客户端模式，现在我通过我的笔记本电脑访问我的边缘节点(与我的集群在同一个网络上)。我知道驱动程序在我的边缘节点上运行，我想知道的是为什么当我关闭与边缘节点的sshsession时我的spark-job会自动挂起？通过VPN/无线互联网打开EdgeNodeputty连接是否对spark作业有任何影响，而不是使用网络内的以太网电缆？目前，即使集群非常强大，spark提交作业也很慢!请帮忙!谢谢! 最佳答案您正在使用--masteryarn提交作业，但您可能没有指定

hadoop Spark code section apache-spark hdfs hadoop-yarn

java - Java 中的 Spark 提交(SparkLauncher)

我制作了spark+hadoopyarn环境并且spark-submit命令运行良好。所以我在我的应用程序jar中制作了SparkLauncherjava代码来执行此操作，但不知何故它不起作用(实际上电脑风扇一开始是在旋转，但不像我使用spark-submit那样长。)它似乎运行不佳(与spark-submit不同，hadoopwebui中没有应用程序登录)。当我使用“SparkLauncher”时，我看不到任何错误日志。没有日志消息，我无法用它做任何事情。到目前为止，这是我如何做到的。publicclassMain{publicstaticvoidmain(String[]args)

SparkLauncher Spark section java hadoop apache-spark

json - 将 Json 转换为 HIVE 中的单独列

我在Hive数据库表中有4列。前两列是字符串类型，第3和第4列是JSON。类型。如何提取不同列中的json数据。Hive中可用的SERDE似乎只处理json数据。我有普通(STRING)和JSON数据。我如何在此处的单独列中提取数据。例子:abc2341{max:2500e0,value:"20",Type:"1",ProviderType:"ABC"}{Name:"ABC",minA:1200e0,StartDate:1483900200000,EndDate:1483986600000,Flags:["flag4","flag3","flag2","flag1"]}xyz6789{

json 34 jsn jsn2 hadoop hive

hadoop - 简单的基于 Java 的 Spark 程序没有完成

我创建了一个非常简单的“字数统计”基于Java的Spark程序，我在YARN上运行的集群中运行它，详细信息如下:Hadoop详细信息:主节点(NN、SNN、RM)-192.168.0.100从节点(DN,NM)-192.168.0.105,192.168.0.108Spark详情:Master运行于:192.168.0.100worker运行在:192.168.0.105、192.168.0.108我已经从提交Spark作业的地方创建了一个客户端机器(客户端机器的IP地址是-->192.168.0.240)。我用来将作业提交到Spark的以下命令:spark-submit--class

hadoop Spark code yarn application apache-spark hadoop-yarn hadoop2

137 138 139140141 142 143