sparking

hadoop - 如何有效地读取带有 spark 路径的文件，即想要返回 `wholeTextFiles` 的 `RDD[String, Iterator[String]]`

大数据中的一个常见问题是将数据转换为大数据友好格式(parquet或TSV)。在当前返回RDD[(String,String)](path->wholefileasstring)的SparkwholeTextFiles中，这是一种有用的方法，但会导致许多问题当文件很大时(主要是内存问题)。原则上应该可以使用底层HadoopAPI编写如下方法defwholeTextFilesIterators(path:String):RDD[(String,Iterator[String])]其中迭代器是文件(假设换行符作为分隔符)并且迭代器正在封装底层文件读取和缓冲。在阅读代码一段时间后，我认为解决

eclipse - Spark 在客户端机器上提交

我在本地系统的Eclipse中运行SparkTwitter情感分析代码。服务器中的所有hadoop和spark集群设置。是否可以在集群设置不是他们的本地系统中运行？如果是，请指导我如何操作。在运行时我给出的论点是>--classcom.dhruv.Predict\>--masterspark://:7077\>--num-executors2\>--executor-memory512m\>--executor-cores2\target/twittersentiment-0.0.1-jar-with-dependencies.jar\>hdfs://tmp/tweets/datase

eclipse Spark section 中运 gt scala hadoop apache-spark

hadoop - Spark/Hadoop - 无法找到 DIGEST-MD5 的 SASL 服务器实现

几个小时以来，我一直在尝试设置Hadoop/YARN，以便在其上执行Spark程序。但我遇到了一个错误，我完全找不到任何错误。当我尝试使用--masteryarn执行spark-submit或spark-shell命令时，出现以下异常:Applicationapplication_1481891851677_0002failed2timesduetoErrorlaunchingappattempt_1481891851677_0002_000002.Gotexception:org.apache.hadoop.security.AccessControlException:Unable

DIGEST-MD hadoop section strong gt apache-spark hadoop-yarn

scala - 在 Scala/Spark 中从 RDD 中提取数据

所以我有一个大型数据集，它是一个stackoverflow用户群的样本。该数据集中的一行如下:我想从声誉中提取数字，在本例中是“11849”，从年龄中提取数字，在这个例子中是“35”，我希望将它们作为float。该文件位于HDFS中，因此采用RDD格式vallinesWithAge=lines.filter(line=>line.contains("Age="))//ThisisfilteringdatawhichdoesnthaveagevalrepSplit=linesWithAge.flatMap(line=>line.split("\""))//HereIamtryingtos

scala code 34 line hadoop apache-spark

hadoop - 在主 Spark 作业中启动多个 Spark 作业

是否可以在主spark作业中生成多个spark作业，我的主要spark作业的驱动程序是在yarncluster上启动的，将进行一些预处理，并基于它，它需要在yarncluster上启动多个spark作业。不确定这种模式是否正确。主spark作业将启动其他spark-job，类似于在Spark驱动程序中调用多个spark-submit。这些为新作业生成的线程将是完全不同的组件，因此无法使用spark操作来实现它们。请分享您的想法。我为了更好地理解下面的示例代码..ObjectMainsparkjob{main(...){valsc=newSparkContext(..)Fetchfrom

Spark hadoop section Action apache-spark

scala - Spark 正在重复工作

我正面临来自Spark的奇怪行为。这是我的代码:objectMyJob{defmain(args:Array[String]):Unit={valsc=newSparkContext()valsqlContext=newhive.HiveContext(sc)valquery=""valrawData=sqlContext.sql(query).cache()valaggregatedData=rawData.groupBy("group_key").agg(max("col1").as("max"),min("col2").as("min"))valredisConfig=newRe

scala Spark section code aggregatedData hadoop apache-spark

hadoop - Spark-SQL 在 yarn-cluster 上的错误 hdfs 权限

我有一个简单的工作，就是通过sparksql在hdfs中读取hive。我首先在yarn-client模式下运行它，我没有遇到任何问题。几次之后，我开始通过yarn-cluster模式启动它，但我遇到了这个问题:我有这个hdfs权限错误:Causedby:MetaException(message:org.apache.hadoop.security.AccessControlException:Permissiondenied:user=yarn,access=EXECUTE,inode="/Projects/SNB/directory/Private/table/table_ORC"

yarn-cluster Spark-SQL apache hadoop java apache-spark hive hdfs apache-spark-sql

hadoop - Spark Sql 1.5 dataframe saveAsTable 如何添加配置单元表属性

我在配置单元上运行sparksql。我需要在创建新的配置单元表时添加auto.purge表属性。我尝试使用以下代码在调用saveAsTable方法时添加选项:inputDF.write.option("auto.purge"->"true").saveAsTable(hiveTableName)上面的代码行在表的WITHSERDEPROPERTIES下添加了一个属性。我需要在配置单元DDL的TBLPROPERTIES部分下添加此属性。最佳答案最后我找到了一个解决方案，我不确定这是否是最好的解决方案。不幸的是，Spark1.5sq

配置单 saveAsTable section hadoop apache-spark hive apache-spark-sql

hadoop - 用于处理保存在 HDFS 中的小型二进制文件的 Spark 架构

我不知道如何为以下用例构建架构:我有一个Web应用程序，用户可以在其中上传文件(pdf&pptx)和要处理的目录。上传完成后，Web应用程序将此文件和目录放在HDFS中，然后在kafka上发送一条包含此文件路径的消息。Spark应用程序从kafka流中读取消息，将它们收集到master(驱动程序)上，然后进行处理。我首先收集消息，因为我需要将代码移动到数据，而不是将数据移动到接收到消息的地方。我知道spark将作业分配给本地已有文件的执行程序。我对kafka有疑问，因为出于上述原因我被迫首先收集它们，并且当想要创建检查点应用程序崩溃时“因为你试图从广播变量中引用SparkContext

小型 hadoop section 的归档 apache-spark hbase hdfs apache-kafka

scala - Spark 使用相同的键创建字段数组

我有一个位于spark上下文之上的配置单元表。表格格式如下|key|param1|Param2|-------------------------|A|A11|A12||B|B11|B12||A|A21|A22|我想创建一个带有模式的DataFramevaldataSchema=newStructType(Array(StructField("key",StringType,nullable=true),StructField("param",ArrayType(StructType(Array(StructField("param1",StringType,nullable=true

scala Spark param 34 param1 hadoop apache-spark spark-hive

200 201 202203204 205 206