Spark-DataFrame

java - Spark中分布式缓存的等价物？

这个问题在这里已经有了答案:HadoopDistributedCachefunctionalityinSpark(2个答案)关闭3年前。在Hadoop中，您可以使用分布式缓存来复制每个节点上的只读文件。在Spark中这样做的等效方法是什么？我知道广播变量，但这只适用于变量，不适用于文件。

java - Spark 异常 : Task failed while writing rows

我正在读取文本文件并将它们转换为parquet文件。我正在使用Spark代码来做这件事。但是当我尝试运行代码时出现以下异常org.apache.spark.SparkException:Jobabortedduetostagefailure:Task2instage1.0failed4times,mostrecentfailure:Losttask2.3instage1.0(TID9,XXXX.XXX.XXX.local):org.apache.spark.SparkException:Taskfailedwhilewritingrows.atorg.apache.spark.sql.

writing failed apache spark InsertIntoHadoopFsRelation java hadoop apache-spark apache-spark-sql parquet

Hadoop 纱 : How to limit dynamic self allocation of resources with Spark?

在我们在Yarn下运行的Hadoop集群中，我们遇到了一个问题，即一些“更聪明”的人能够通过在pySparkJupyter笔记本中配置Spark作业来消耗大得多的资源block，例如:conf=(SparkConf().setAppName("name").setMaster("yarn-client").set("spark.executor.instances","1000").set("spark.executor.memory","64g"))sc=SparkContext(conf=conf)这导致了这些人从字面上排挤其他不那么“聪明”的人的情况。有没有办法禁止用户自行分配资

allocation resources capacity value gt hadoop apache-spark pyspark hadoop-yarn

hadoop - Apache Spark : In SparkSql, 是易受 SQL 注入(inject)攻击的 sql

这个问题在这里已经有了答案:SparkSQLsecurityconsiderations(1个回答)关闭5年前。场景:假设Hive中有一个表，使用下面的ApacheSpark中的SparkSql查询它，其中表名作为参数传递并连接到查询.在非分布式系统的情况下，我对SQL注入(inject)漏洞有基本的了解，并且在JDBC的上下文中了解createStatement/preparedStatement在这种情况下的用法。但是sparksql这个场景呢，这段代码有漏洞吗？有什么见解吗？defmain(args:Array[String]){valsconf=newSparkConf().s

SparkSql hadoop section notice strong apache-spark hive apache-spark-sql bigdata

【pyspark从入门到放弃】DataFrame

环境安装pyspark支持通过pypip、conda下载，或者手动下载。笔者通过pipinstall命令从pypip下载并配置安装了3.5.0版本的Spark。创建实例使用spark的第一步就是拿到一个SparkSession对象。最简单的方法是SparkSession.builder.getOrCreate()即，直接使用默认参数创建实例。也可以做一些配置，比如SparkSession.builder\.appName(app_name)\.enableHiveSupport()\.getOrCreate()DataFrame创建DataFrameDataFrame是类似pandas库中的D

DataFrame 入门 code span class spark

hadoop - 如何将 Spark ML Lib 模型保存/导出到 PMML？

我想使用SparkMLLib训练模型，然后能够以与平台无关的格式导出模型。本质上，我想分离模型的创建和使用方式。我想要这种解耦的原因是我可以在其他项目中部署模型。例如:使用该模型在独立的独立程序中执行预测，该程序不依赖于Spark进行评估。将模型与现有项目(例如OpenScoring)结合使用，并提供可以使用该模型的API。将现有模型加载回Spark以进行高吞吐量预测。有人用SparkMLLib做过类似的事情吗？最佳答案 Spark1.4版本现在支持这个。参见latestdocumentation.并非所有型号都可用(请参阅支持(

hadoop Spark section noreferrer deployment machine-learning apache-spark modeling

hadoop - Spark/Hadoop - 无法使用服务器端加密保存到 s3

我正在运行AWSEMR集群来运行spark作业。为了使用s3存储桶，hadoop配置设置了访问key、secretkey、enableServerSideEncryption和用于加密的算法。请看下面的代码valhadoopConf=sc.hadoopConfiguration;hadoopConf.set("fs.s3.impl","org.apache.hadoop.fs.s3native.NativeS3FileSystem")hadoopConf.set("fs.s3.awsAccessKeyId","xxx")hadoopConf.set("fs.s3.awsSecretAc

hadoop code section hadoopConf encryption amazon-s3 apache-spark emr

hadoop - Windows 上的 Spark - winutils 到底是什么，我们为什么需要它？

我很好奇!据我所知，HDFS需要数据节点进程才能运行，这就是它只在服务器上运行的原因。Spark可以在本地运行，但需要winutils.exe，它是Hadoop的一个组件。但它到底做了什么？为什么我不能在Windows上运行Hadoop，但是我可以运行基于Hadoop构建的Spark？最佳答案我至少知道一种用法，它用于在Windows操作系统上运行shell命令。你可以在org.apache.hadoop.util.Shell中找到它，其他模块依赖于这个类并使用它的方法，例如getGetPermissionCommand()方法

winutils Windows section WINUTILS_FAILURE hadoop apache-spark

scala - Spark : SAXParseException while writing to parquet on s3

我正在尝试读取一些json，推断模式，然后将其作为parquet再次写出到s3(s3a)。出于某种原因，在运行的写入部分进行了大约三分之一的过程中，spark总是出错并出现以下错误。我找不到任何明显的问题原因:它不是内存不足；没有长时间的GC暂停。各个执行者的日志中似乎没有任何其他错误消息。该脚本在我拥有的另一组数据上运行良好，它具有非常相似的结构，但小了几个数量级。我正在运行spark2.0.1-hadoop-2.7并使用FileOutputCommitter。算法版本似乎并不重要。编辑:对于格式错误的json或损坏的文件，这似乎不是问题。我已经解压缩并单独读取每个文件，没有错误。这

SAXParseException parquet apache spark org scala hadoop apache-spark amazon-s3

r - 无法从 SparkR 创建的 DataFrame 中检索数据

我有以下简单的SparkR程序，它创建一个SparkRDataFrame并从中检索/收集数据。Sys.setenv(HADOOP_CONF_DIR="/etc/hadoop/conf.cloudera.yarn")Sys.setenv(SPARK_HOME="/home/user/Downloads/spark-1.6.1-bin-hadoop2.6").libPaths(c(file.path(Sys.getenv("SPARK_HOME"),"R","lib"),.libPaths()))library(SparkR)sc我能够成功创建它并查看信息，但是任何与获取数据相关的操作都会

DataFrame SparkR spark apache scala r hadoop apache-spark hive

82 83 848586 87 88