spark-dataframe

scala - Apache Spark 抛出 java.lang.IllegalStateException : unread block data

我们正在做的是:根据网站上的文档安装Spark0.9.1，以及hadoop/hdfs的CDH4(和另一个带有CDH5的集群)发行版。使用sbt构建带有Spark应用程序的fatjar，然后尝试在集群上运行它我还在底部包含了代码片段和sbtdeps。当我用谷歌搜索这个时，似乎有两个有点含糊的回答:a)节点/用户代码上的spark版本不匹配b)需要向SparkConf添加更多的jar现在我知道(b)不是在其他集群上成功运行相同代码但只包含一个jar(它是一个胖jar)的问题。但我不知道如何检查(a)-似乎Spark没有任何版本检查或任何东西-如果它检查版本并抛出“不匹配的版本异常:你有用户

IllegalStateException Apache 34 DAGScheduler scala hadoop hdfs apache-spark

scala - Spark 任务不可序列化(案例类)

当我在闭包中使用扩展Serializable的案例类或类/对象时，Spark抛出Tasknotserializable。objectWriteToHbaseextendsSerializable{defmain(args:Array[String]){valcsvRows:RDD[Array[String]=...valdateFormatter=DateTimeFormat.forPattern("yyyy-MM-ddHH:mm:ss")valusersRDD=csvRows.map(row=>{newUserTable(row(0),row(1),row(2),row(9),row

scala Spark String section UserTable hadoop serialization apache-spark closures

java - Spark中分布式缓存的等价物？

这个问题在这里已经有了答案:HadoopDistributedCachefunctionalityinSpark(2个答案)关闭3年前。在Hadoop中，您可以使用分布式缓存来复制每个节点上的只读文件。在Spark中这样做的等效方法是什么？我知道广播变量，但这只适用于变量，不适用于文件。

等价物 Spark section notice span java scala hadoop apache-spark

java - Spark 异常 : Task failed while writing rows

我正在读取文本文件并将它们转换为parquet文件。我正在使用Spark代码来做这件事。但是当我尝试运行代码时出现以下异常org.apache.spark.SparkException:Jobabortedduetostagefailure:Task2instage1.0failed4times,mostrecentfailure:Losttask2.3instage1.0(TID9,XXXX.XXX.XXX.local):org.apache.spark.SparkException:Taskfailedwhilewritingrows.atorg.apache.spark.sql.

writing failed apache spark InsertIntoHadoopFsRelation java hadoop apache-spark apache-spark-sql parquet

Hadoop 纱 : How to limit dynamic self allocation of resources with Spark?

在我们在Yarn下运行的Hadoop集群中，我们遇到了一个问题，即一些“更聪明”的人能够通过在pySparkJupyter笔记本中配置Spark作业来消耗大得多的资源block，例如:conf=(SparkConf().setAppName("name").setMaster("yarn-client").set("spark.executor.instances","1000").set("spark.executor.memory","64g"))sc=SparkContext(conf=conf)这导致了这些人从字面上排挤其他不那么“聪明”的人的情况。有没有办法禁止用户自行分配资

allocation resources capacity value gt hadoop apache-spark pyspark hadoop-yarn

hadoop - Apache Spark : In SparkSql, 是易受 SQL 注入(inject)攻击的 sql

这个问题在这里已经有了答案:SparkSQLsecurityconsiderations(1个回答)关闭5年前。场景:假设Hive中有一个表，使用下面的ApacheSpark中的SparkSql查询它，其中表名作为参数传递并连接到查询.在非分布式系统的情况下，我对SQL注入(inject)漏洞有基本的了解，并且在JDBC的上下文中了解createStatement/preparedStatement在这种情况下的用法。但是sparksql这个场景呢，这段代码有漏洞吗？有什么见解吗？defmain(args:Array[String]){valsconf=newSparkConf().s

SparkSql hadoop section notice strong apache-spark hive apache-spark-sql bigdata

【pyspark从入门到放弃】DataFrame

环境安装pyspark支持通过pypip、conda下载，或者手动下载。笔者通过pipinstall命令从pypip下载并配置安装了3.5.0版本的Spark。创建实例使用spark的第一步就是拿到一个SparkSession对象。最简单的方法是SparkSession.builder.getOrCreate()即，直接使用默认参数创建实例。也可以做一些配置，比如SparkSession.builder\.appName(app_name)\.enableHiveSupport()\.getOrCreate()DataFrame创建DataFrameDataFrame是类似pandas库中的D

DataFrame 入门 code span class spark

hadoop - 如何将 Spark ML Lib 模型保存/导出到 PMML？

我想使用SparkMLLib训练模型，然后能够以与平台无关的格式导出模型。本质上，我想分离模型的创建和使用方式。我想要这种解耦的原因是我可以在其他项目中部署模型。例如:使用该模型在独立的独立程序中执行预测，该程序不依赖于Spark进行评估。将模型与现有项目(例如OpenScoring)结合使用，并提供可以使用该模型的API。将现有模型加载回Spark以进行高吞吐量预测。有人用SparkMLLib做过类似的事情吗？最佳答案 Spark1.4版本现在支持这个。参见latestdocumentation.并非所有型号都可用(请参阅支持(

hadoop Spark section noreferrer deployment machine-learning apache-spark modeling

hadoop - Spark/Hadoop - 无法使用服务器端加密保存到 s3

我正在运行AWSEMR集群来运行spark作业。为了使用s3存储桶，hadoop配置设置了访问key、secretkey、enableServerSideEncryption和用于加密的算法。请看下面的代码valhadoopConf=sc.hadoopConfiguration;hadoopConf.set("fs.s3.impl","org.apache.hadoop.fs.s3native.NativeS3FileSystem")hadoopConf.set("fs.s3.awsAccessKeyId","xxx")hadoopConf.set("fs.s3.awsSecretAc

hadoop code section hadoopConf encryption amazon-s3 apache-spark emr

hadoop - Windows 上的 Spark - winutils 到底是什么，我们为什么需要它？

我很好奇!据我所知，HDFS需要数据节点进程才能运行，这就是它只在服务器上运行的原因。Spark可以在本地运行，但需要winutils.exe，它是Hadoop的一个组件。但它到底做了什么？为什么我不能在Windows上运行Hadoop，但是我可以运行基于Hadoop构建的Spark？最佳答案我至少知道一种用法，它用于在Windows操作系统上运行shell命令。你可以在org.apache.hadoop.util.Shell中找到它，其他模块依赖于这个类并使用它的方法，例如getGetPermissionCommand()方法

winutils Windows section WINUTILS_FAILURE hadoop apache-spark

82 83 848586 87 88