sparking

postgresql - 用于 spark/hadoop 的 Postgres 适配器增加了什么值(value)？

我不是HDFSNerd，但来自传统的RDMS背景，我正在接触Hadoop和Spark等新技术。现在，当涉及到对Spark数据进行SQL查询时，我正在研究我的选择。我意识到Spark天生就支持SQL查询。然后我遇到了这个链接https://www.enterprisedb.com/news/enterprisedb-announces-new-apache-spark-connecter-speed-postgres-big-data-processing我正在努力弄清这一点。如果我理解正确的话。数据仍然以HDFS格式存储，但Postgres连接器用作查询引擎？如果是这样，在存在现有查询

适配 postgresql section Postgres enterprisedb apache-spark hadoop hdfs

scala - 使用spark scala将行转换为列

我想使用spark数据框将行转换为列。我的table是这样的Eno,Name1,A1,B1,C2,D2,E我想把它转换成Eno,n1,n2,n31,A,B,C2,D,E,Null我使用了下面的代码:-valr=spark.sqlContext.read.format("csv").option("header","true").option("inferschema","true").load("C:\\Users\\axy\\Desktop\\abc2.csv")valn=Seq("n1","n2","n3"r.groupBy("Eno").pivot("Name",n).agg(e

scala spark 34 section code apache-spark hadoop hive bigdata

apache-spark - 如何在 spark 数据帧中的 ISIN 运算符中传递数据帧

我想将具有一组值的数据框传递给新查询，但它失败了。1)在这里我选择了特定的列，这样我就可以在下一个查询中通过ISINscala>valmanagerIdDf=finalEmployeesDf.filter($"manager_id"!==0).select($"manager_id").distinctmanagerIdDf:org.apache.spark.sql.DataFrame=[manager_id:bigint]2)我的示例数据:scala>managerIdDf.show+----------+|manager_id|+----------+|67832||65646||

运算符 spark 34 code pre apache-spark hadoop apache-spark-sql bigdata

apache-spark - Hadoop copyToLocalFile 在 Yarn 集群模式下失败

我试图从我的Spark2应用程序使用Hadoop的copyToLocalFile函数将文件从HDFS复制到本地。valhadoopConf=newConfiguration()valhdfs=FileSystem.get(hadoopConf)valsrc=newPath("/user/yxs7634/all.txt")valdest=newPath("file:///home/yxs7634/all.txt")hdfs.copyToLocalFile(src,dest)当我在Yarn客户端模式下提交我的spark应用程序时，上面的代码工作正常。但是，它在Yarn集群模式下一直失败并出

copyToLocalFile apache-spark section 并出 hadoop hdfs hadoop-yarn

scala - Spark Scala S3 存储 : permission denied

我在Internet上阅读了很多关于如何让Spark与S3一起工作的主题，但仍然没有任何东西可以正常工作。我已经下载了:Spark2.3.2withhadoop2.7andabove.我只从Hadoop2.7.7(匹配Spark/Hadoop版本)复制了一些库到Sparkjars文件夹:hadoop-aws-2.7.7.jarhadoop-auth-2.7.7.jaraws-java-sdk-1.7.4.jar我仍然无法使用S3N或S3A来让spark读取我的文件:对于S3A我有这个异常(exception):sc.hadoopConfiguration.set("fs.s3a.acc

permission denied 34 hadoopConfiguration hadoop scala apache-spark amazon-s3

scala - 如何使用 withColumn Spark Dataframe scala with while

这是我的函数应用规则，colmdp_codcat,mdp_idregl,usedRefchangechangesaccordingtothedatainarraybRef.defwithMdpCodcat(bRef:Broadcast[Array[RefRglSDC]])(dataFrame:DataFrame):DataFrame={varmatchRule=falsevari=0while(i示例-我的数据框:valDF=Seq(("tt","aa","bb"),("tt1","aa1","bb2"),("tt1","aa1","bb2")).toDF("t","a","b)+--

scala withColumn 34 bRef value apache-spark hadoop apache-spark-sql

scala - 如何在 Spark 提交中将 s3a 与 Apache spark 2.2(hadoop 2.8) 一起使用？

我正在尝试使用使用hadoop2.8版本构建的spark2.2.0从spark访问S3数据，我正在使用/jars/hadoop-aws-2.8.3。jar,/jars/aws-java-sdk-s3-1.10.6.jar和/jars/aws-java-sdk-core-1.10.6.jar在类路径我得到以下异常java.lang.NoClassDefFoundError:org/apache/hadoop/fs/StorageStatisticsatjava.lang.Class.forName0(NativeMethod)atjava.lang.Class.forName(Class

何在 Apache java hadoop scala apache-spark amazon-s3 pyspark-sql

apache-spark - 什么决定了 Parquet 文件缓冲区的大小

我在spark-shell中将一个DataFrame写入了hdfs，并得到了以下输出。我想了解的是，什么决定了正在写入的Parquet文件的大小？我的dfs.block.size设置为:scala>spark.sparkContext.hadoopConfiguration.get("dfs.block.size")res1:String=134217728这是128MB，为什么我的文件在20,000,000字节范围内？-rw-r--r--1hadoopsupergroup02018-11-1311:51/new_sample_parquet_test/_SUCCESS-rw-r--r

apache-spark Parquet new_sample_parquet_test supergroup hadoop hdfs

apache-spark - 将大量数据从 SQL Server 传输和转换到 Azure SQL Server 的最佳方法。 Azure 数据工厂、HDInsight 等

我想找到将20GBSQL数据从安装在客户现场服务器Client上的SQLServer数据库传输到我们的AzureSQLServerSource的最佳方法，S4有200DTUs性能每月320美元。在进行初始设置时，我们设置了一个Azure数据工厂，通过多个表副本复制超过20GB，例如，客户端表A的内容到源表A，客户端表B的内容到源表B，等等。然后我们运行许多提取器存储过程，通过将这些源表连接在一起，将源表中的数据插入到阶段表中，例如，源A连接到源B。之后是增量副本，但初始设置确实需要永远。目前S4的复制时间在12小时左右，解压时间为4小时。以每月2400美元的价格将性能层级提高到1600

Server Azure section noreferrer apache-spark hadoop azure-sql-database azure-hdinsight azure-data-factory-2

apache-spark - 使用 utf-8 字符编码从 hive 中选择数据

我正在从我的配置单元表/View中选择数据，但spark-shell或直线没有选择字符编码，但是如果我从Ambari(直接通过Hive)选择相同的数据，而是从命令行Hive出于安全原因已被禁用。请看下面的数据:AmbariData:•ConstructionMaintenance•524N.MartinLutherKingJr.‘SS-MN-BAE–Other’¿NPM¿GOVT/GSSCDUSARM¿MCCRAY,LORENZObeelinedata:?ConstructionMai...?524N.MartinL...?SS-MN-BAE?Other??NPM?GOVT/GSSCD

utf-8 中选 code section N.apache-spark hadoop hive beeline spark-shell

187 188 189190191 192 193