spark-submit

hadoop - Spark Sql 1.5 dataframe saveAsTable 如何添加配置单元表属性

我在配置单元上运行sparksql。我需要在创建新的配置单元表时添加auto.purge表属性。我尝试使用以下代码在调用saveAsTable方法时添加选项:inputDF.write.option("auto.purge"->"true").saveAsTable(hiveTableName)上面的代码行在表的WITHSERDEPROPERTIES下添加了一个属性。我需要在配置单元DDL的TBLPROPERTIES部分下添加此属性。最佳答案最后我找到了一个解决方案，我不确定这是否是最好的解决方案。不幸的是，Spark1.5sq

hadoop - 用于处理保存在 HDFS 中的小型二进制文件的 Spark 架构

我不知道如何为以下用例构建架构:我有一个Web应用程序，用户可以在其中上传文件(pdf&pptx)和要处理的目录。上传完成后，Web应用程序将此文件和目录放在HDFS中，然后在kafka上发送一条包含此文件路径的消息。Spark应用程序从kafka流中读取消息，将它们收集到master(驱动程序)上，然后进行处理。我首先收集消息，因为我需要将代码移动到数据，而不是将数据移动到接收到消息的地方。我知道spark将作业分配给本地已有文件的执行程序。我对kafka有疑问，因为出于上述原因我被迫首先收集它们，并且当想要创建检查点应用程序崩溃时“因为你试图从广播变量中引用SparkContext

小型 hadoop section 的归档 apache-spark hbase hdfs apache-kafka

scala - Spark 使用相同的键创建字段数组

我有一个位于spark上下文之上的配置单元表。表格格式如下|key|param1|Param2|-------------------------|A|A11|A12||B|B11|B12||A|A21|A22|我想创建一个带有模式的DataFramevaldataSchema=newStructType(Array(StructField("key",StringType,nullable=true),StructField("param",ArrayType(StructType(Array(StructField("param1",StringType,nullable=true

scala Spark param 34 param1 hadoop apache-spark spark-hive

hadoop - 为什么 ./bin/spark-shell 给出 WARN NativeCodeLoader : Unable to load native-hadoop library for your platform?

在MacOSX上，我使用以下命令从源代码编译了Spark:jacek:~/oss/spark$SPARK_HADOOP_VERSION=2.4.0SPARK_YARN=trueSPARK_HIVE=trueSPARK_GANGLIA_LGPL=truexsbt...[info]Setcurrentprojecttoroot(inbuildfile:/Users/jacek/oss/spark/)>;clean;assembly...[info]Packaging/Users/jacek/oss/spark/examples/target/scala-2.10/spark-example

hadoop NativeCodeLoader section spark apache-spark

hadoop - 如何从 spark thrift 服务器使用 hadoop？

请考虑以下设置。hadoop版本2.6.4Spark版本2.1.0操作系统CentOSLinux版本7.2.1511(核心)所有软件作为单节点集群安装在一台机器上，spark以独立模式安装。我正在尝试使用SparkThrift服务器。要启动sparkthrift服务器，我运行shell脚本start-thriftserver.sh运行thrift服务器后，我可以运行beeline命令行工具并发出以下命令:命令运行成功:!connectjdbc:hive2://localhost:10000user_name''org.apache.hive.jdbc.HiveDrivercreated

hadoop thrift localhost hive apache-spark beeline

hadoop - Spark BigQuery 连接器，设置欧盟位置

我一直在使用Google提供的BQ连接器，并为另一个抽象逻辑的连接器做出贡献我的问题是如何使用saveAsNewAPIHadoopDataset通过sparkAPI写入欧盟位置？通过hadoopconf设置位置似乎还不够最佳答案我通过自己编写一个新的连接器来解决这个问题。可以查看here 关于hadoop-SparkBigQuery连接器，设置欧盟位置，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co

欧盟 BigQuery section stackoverflow https hadoop apache-spark google-bigquery

csv - 使用 Spark 从 S3 加载嵌套的 csv 文件

我尝试加载s3中的数百个gzip压缩csv文件。目录结构类似于以下内容:bucket--level1----level2.1--------level3.1------------manyfiles--------level3.2------------manyfiles----level2.2--------level3.1------------manyfiles--------level3.2------------manyfiles可能有多个level2、level3目录，每个目录下都有很多文件。过去我使用.textFile加载数据并使用通配符传递路径，例如:s3a://buc

csv Spark level apache section hadoop apache-spark amazon-s3 spark-csv

hadoop - 执行 spark 作业时出现 FileNotFoundException

我正在尝试在Spark上执行一个程序。我有一个包含一个主节点和两个从节点的集群。我在执行期间收到以下错误。Exceptioninthread"main"org.apache.spark.SparkException:Jobabortedduetostagefailure:Task3instage4.0failed4times,mostrecentfailure:Losttask3.3instage4.0(TID44,hadoopslave3):java.lang.RuntimeException:java.io.FileNotFoundException:File/home/ubunt

时出 FileNotFoundException DAGScheduler scala scheduler hadoop apache-spark

java - 使用 Spark 和 JAVA 从 HBase 读取数据

我想使用JAVA通过Spark访问HBase。除了this之外，我还没有找到任何例子一。答案中写着，YoucanalsowritethisinJava我从Howtoreadfromhbaseusingspark复制了这段代码:importorg.apache.hadoop.hbase.client.{HBaseAdmin,Result}importorg.apache.hadoop.hbase.{HBaseConfiguration,HTableDescriptor}importorg.apache.hadoop.hbase.mapreduce.TableInputFormatimpo

Spark HBase 34 TableInputFormat java hadoop apache-spark

hadoop - Spark 上的 hive : Failed to create spark client

我正在尝试使Spark2.1.0上的Hive2.1.1在单个实例上运行。我不确定这是正确的方法。目前我只有一个实例，所以我无法构建集群。当我在配置单元中运行任何插入查询时，出现错误:hive>insertintomcus(id,name)values(1,'ARM');QueryID=server_20170223121333_416506b4-13ba-45a4-a0a2-8417b187e8ccTotaljobs=1LaunchingJob1outof1Inordertochangetheaverageloadforareducer(inbytes):sethive.exec.re

hadoop Failed gt lt property apache-spark hive hadoop-yarn

213 214 215216217 218 219