草庐IT

spark-submit

全部标签

apache-spark - 什么决定了 Parquet 文件缓冲区的大小

我在spark-shell中将一个DataFrame写入了hdfs,并得到了以下输出。我想了解的是,什么决定了正在写入的Parquet文件的大小?我的dfs.block.size设置为:scala>spark.sparkContext.hadoopConfiguration.get("dfs.block.size")res1:String=134217728这是128MB,为什么我的文件在20,000,000字节范围内?-rw-r--r--1hadoopsupergroup02018-11-1311:51/new_sample_parquet_test/_SUCCESS-rw-r--r

apache-spark - 将大量数据从 SQL Server 传输和转换到 Azure SQL Server 的最佳方法。 Azure 数据工厂、HDInsight 等

我想找到将20GBSQL数据从安装在客户现场服务器Client上的SQLServer数据库传输到我们的AzureSQLServerSource的最佳方法,S4有200DTUs性能每月320美元。在进行初始设置时,我们设置了一个Azure数据工厂,通过多个表副本复制超过20GB,例如,客户端表A的内容到源表A,客户端表B的内容到源表B,等等。然后我们运行许多提取器存储过程,通过将这些源表连接在一起,将源表中的数据插入到阶段表中,例如,源A连接到源B。之后是增量副本,但初始设置确实需要永远。目前S4的复制时间在12小时左右,解压时间为4小时。以每月2400美元的价格将性能层级提高到1600

apache-spark - 使用 utf-8 字符编码从 hive 中选择数据

我正在从我的配置单元表/View中选择数据,但spark-shell或直线没有选择字符编码,但是如果我从Ambari(直接通过Hive)选择相同的数据,而是从命令行Hive出于安全原因已被禁用。请看下面的数据:AmbariData:•ConstructionMaintenance•524N.MartinLutherKingJr.‘SS-MN-BAE–Other’¿NPM¿GOVT/GSSCDUSARM¿MCCRAY,LORENZObeelinedata:?ConstructionMai...?524N.MartinL...?SS-MN-BAE?Other??NPM?GOVT/GSSCD

apache-spark - 如何尾纱原木?

我正在使用以下命令提交Spark作业。我想使用类似于Linuxbox中的tail命令操作的应用程序Id来跟踪yarn日志。exportSPARK_MAJOR_VERSION=2nohupspark-submit--class"com.test.TestApplication"--nameTestApp--queuequeue1--properties-fileapplication.properties--files"hive-site.xml,tez-site.xml,hbase-site.xml,application.properties"--masteryarn--deploy

amazon-web-services - 提交本地 spark 作业到 emr

我正在关注关于向emr集群提交spark作业的amazon文档https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/按照说明进行操作后,由于未解析的地址和类似的消息,频繁的故障排除失败。ERRORspark.SparkContext:ErrorinitializingSparkContext.java.lang.IllegalArgumentException:java.net.UnknownHostException:ip-172-32-1-231.us-e

apache-spark - 设置 fs.defaultFS 属性时无法创建 Dataproc 集群?

这已经是之前post的讨论对象了,但是,我不相信答案是Googledocs指定可以创建集群设置fs.defaultFS属性。此外,即使可以通过编程方式设置此属性,但有时从命令行设置它会更方便。所以我想知道为什么传递给我的集群创建命令的以下选项不起作用:--propertiescore:fs.defaultFS=gs://my-bucket?请注意,我没有包含所有参数,因为我在没有前面标志的情况下运行命令并且它成功创建了集群。然而,当传递这个时,我得到:“失败:无法启动主控:报告的DataNodes数量不足。”如果有人通过设置fs.defaultFS成功创建了一个dataproc集群,那

apache-spark - 使用 Pyspark 与 Hbase 交互的最佳方式是什么

我正在使用pyspark[spark2.3.1]和Hbase1.2.1,我想知道使用pyspark访问Hbase的最佳方式是什么?我做了一些初步的搜索,发现几乎没有可用的选项,比如使用shc-core:1.1.1-2.1-s_2.11.jar这可以实现,但无论我在哪里尝试寻找一些例子,大多数地方的代码都是用Scala编写的,或者示例也是基于Scala的。我尝试在pyspark中实现基本代码:frompysparkimportSparkContextfrompyspark.sqlimportSQLContextdefmain():sc=SparkContext()sqlc=SQLCont

scala - 从 spark dataframe 或 RDD 生成键值对,键中存在列名

我有一个spark数据框,我需要如下所示的键值对。我特别需要键中的列名。我想使用单个映射器传递来执行此操作。原始数据集:预期键值对:(Attribute_Name,Attribute_Value,Class),1单次映射后的预期结果:预期数据集 最佳答案 这应该有帮助:importorg.apache.spark.{SparkConf,SparkContext}importorg.apache.spark.sql.functions.{explode,udf,typedLit}importorg.apache.spark.sql.S

Scala 嵌套映射到 Spark RDD

我正在尝试将映射列表(Seq[Map[String,Map[String,String]])转换为RDD表/元组,其中映射中的每个键->值对平面映射到元组用外面map的key。例如Map(1->Map('k'->'v','k1'->'v1'))成为(1,'k','v')(1,'k1','v1')我试过下面的方法,但它似乎在并发问题上失败了。我有两个工作节点,它复制了键->值两次(我认为这是因为我做错了)假设我将我的map类型保存在案例类“记录”中valrdd=sc.parallelize(1torecords.length)valrecordsIt=records.iteratorva

scala - 如何过滤掉 spark 数据框中的 bool 字段?

我的数据框中有三列。第二个和第三个是bool字段。我想过滤掉真实的值。我试过这个nn.filter(col("col3")===true).show但它说无效的列名“true”。我的代码有什么问题?有什么帮助吗?我的代码:scala>nn.printSchemaroot|--ID:integer(nullable=true)|--col2:boolean(nullable=true)|--col3:boolean(nullable=true)scala>nn.show+---+-----+-----+|ID|col2|col3|+---+-----+-----+|4|true|fals