spark-submit

apache-spark - 什么决定了 Parquet 文件缓冲区的大小

我在spark-shell中将一个DataFrame写入了hdfs，并得到了以下输出。我想了解的是，什么决定了正在写入的Parquet文件的大小？我的dfs.block.size设置为:scala>spark.sparkContext.hadoopConfiguration.get("dfs.block.size")res1:String=134217728这是128MB，为什么我的文件在20,000,000字节范围内？-rw-r--r--1hadoopsupergroup02018-11-1311:51/new_sample_parquet_test/_SUCCESS-rw-r--r

apache-spark - 将大量数据从 SQL Server 传输和转换到 Azure SQL Server 的最佳方法。 Azure 数据工厂、HDInsight 等

我想找到将20GBSQL数据从安装在客户现场服务器Client上的SQLServer数据库传输到我们的AzureSQLServerSource的最佳方法，S4有200DTUs性能每月320美元。在进行初始设置时，我们设置了一个Azure数据工厂，通过多个表副本复制超过20GB，例如，客户端表A的内容到源表A，客户端表B的内容到源表B，等等。然后我们运行许多提取器存储过程，通过将这些源表连接在一起，将源表中的数据插入到阶段表中，例如，源A连接到源B。之后是增量副本，但初始设置确实需要永远。目前S4的复制时间在12小时左右，解压时间为4小时。以每月2400美元的价格将性能层级提高到1600

Server Azure section noreferrer apache-spark hadoop azure-sql-database azure-hdinsight azure-data-factory-2

apache-spark - 使用 utf-8 字符编码从 hive 中选择数据

我正在从我的配置单元表/View中选择数据，但spark-shell或直线没有选择字符编码，但是如果我从Ambari(直接通过Hive)选择相同的数据，而是从命令行Hive出于安全原因已被禁用。请看下面的数据:AmbariData:•ConstructionMaintenance•524N.MartinLutherKingJr.‘SS-MN-BAE–Other’¿NPM¿GOVT/GSSCDUSARM¿MCCRAY,LORENZObeelinedata:?ConstructionMai...?524N.MartinL...?SS-MN-BAE?Other??NPM?GOVT/GSSCD

utf-8 中选 code section N.apache-spark hadoop hive beeline spark-shell

apache-spark - 如何尾纱原木？

我正在使用以下命令提交Spark作业。我想使用类似于Linuxbox中的tail命令操作的应用程序Id来跟踪yarn日志。exportSPARK_MAJOR_VERSION=2nohupspark-submit--class"com.test.TestApplication"--nameTestApp--queuequeue1--properties-fileapplication.properties--files"hive-site.xml,tez-site.xml,hbase-site.xml,application.properties"--masteryarn--deploy

原木 apache-spark section properties Spark hadoop hadoop-yarn tail apache-spark-2.0

amazon-web-services - 提交本地 spark 作业到 emr

我正在关注关于向emr集群提交spark作业的amazon文档https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/按照说明进行操作后，由于未解析的地址和类似的消息，频繁的故障排除失败。ERRORspark.SparkContext:ErrorinitializingSparkContext.java.lang.IllegalArgumentException:java.net.UnknownHostException:ip-172-32-1-231.us-e

amazon-web-services services DFSOutputStream hadoop java apache-spark amazon-emr

apache-spark - 设置 fs.defaultFS 属性时无法创建 Dataproc 集群？

这已经是之前post的讨论对象了，但是，我不相信答案是Googledocs指定可以创建集群设置fs.defaultFS属性。此外，即使可以通过编程方式设置此属性，但有时从命令行设置它会更方便。所以我想知道为什么传递给我的集群创建命令的以下选项不起作用:--propertiescore:fs.defaultFS=gs://my-bucket？请注意，我没有包含所有参数，因为我在没有前面标志的情况下运行命令并且它成功创建了集群。然而，当传递这个时，我得到:“失败:无法启动主控:报告的DataNodes数量不足。”如果有人通过设置fs.defaultFS成功创建了一个dataproc集群，那

apache-spark defaultFS code section hadoop google-cloud-dataproc

apache-spark - 使用 Pyspark 与 Hbase 交互的最佳方式是什么

我正在使用pyspark[spark2.3.1]和Hbase1.2.1，我想知道使用pyspark访问Hbase的最佳方式是什么？我做了一些初步的搜索，发现几乎没有可用的选项，比如使用shc-core:1.1.1-2.1-s_2.11.jar这可以实现，但无论我在哪里尝试寻找一些例子，大多数地方的代码都是用Scala编写的，或者示例也是基于Scala的。我尝试在pyspark中实现基本代码:frompysparkimportSparkContextfrompyspark.sqlimportSQLContextdefmain():sc=SparkContext()sqlc=SQLCont

apache-spark Pyspark 34 code pre hadoop apache-spark-sql hbase

scala - 从 spark dataframe 或 RDD 生成键值对，键中存在列名

我有一个spark数据框，我需要如下所示的键值对。我特别需要键中的列名。我想使用单个映射器传递来执行此操作。原始数据集:预期键值对:(Attribute_Name,Attribute_Value,Class),1单次映射后的预期结果:预期数据集最佳答案这应该有帮助:importorg.apache.spark.{SparkConf,SparkContext}importorg.apache.spark.sql.functions.{explode,udf,typedLit}importorg.apache.spark.sql.S

列名 dataframe 34 header section scala apache-spark hadoop apache-spark-sql decision-tree

Scala 嵌套映射到 Spark RDD

我正在尝试将映射列表(Seq[Map[String,Map[String,String]])转换为RDD表/元组，其中映射中的每个键->值对平面映射到元组用外面map的key。例如Map(1->Map('k'->'v','k1'->'v1'))成为(1,'k','v')(1,'k1','v1')我试过下面的方法，但它似乎在并发问题上失败了。我有两个工作节点，它复制了键->值两次(我认为这是因为我做错了)假设我将我的map类型保存在案例类“记录”中valrdd=sc.parallelize(1torecords.length)valrecordsIt=records.iteratorva

Scala Spark code String section apache-spark hadoop apache-spark-sql rdd

scala - 如何过滤掉 spark 数据框中的 bool 字段？

我的数据框中有三列。第二个和第三个是bool字段。我想过滤掉真实的值。我试过这个nn.filter(col("col3")===true).show但它说无效的列名“true”。我的代码有什么问题？有什么帮助吗？我的代码:scala>nn.printSchemaroot|--ID:integer(nullable=true)|--col2:boolean(nullable=true)|--col3:boolean(nullable=true)scala>nn.show+---+-----+-----+|ID|col2|col3|+---+-----+-----+|4|true|fals

scala spark false apache apache-spark hadoop

200 201 202203204 205 206