spark-dataframe

java - spark应用jar是否需要提交？

如标题所述，我想知道是否有必要spark-submit*.jar？我使用DatastaxEnterpriseCassandra有一段时间了，但现在我也需要使用Spark。DS320:DataStaxEnterpriseAnalyticswithApacheSpark的几乎所有视频我都看了并且没有关于从Java应用程序远程连接到Spark的内容。现在我有3个正在运行的DSE节点。我可以从sparkshell连接到Spark。但在尝试从Java代码连接到Spark2天后，我放弃了。这是我的Java代码SparkConfsparkConf=newSparkConf();sparkConf.s

java - Spark 上下文中的 Uima Ruta 内存不足问题

我在apachespark上运行一个UIMA应用程序。UIMARUTA有数以百万计的页面批量处理以进行计算。但有时我遇到内存不足异常。它有时会抛出异常，因为它成功处理了2000页，但有时在500页上失败。应用日志Causedby:java.lang.OutOfMemoryError:Javaheapspaceatorg.apache.uima.internal.util.IntArrayUtils.expand_size(IntArrayUtils.java:57)atorg.apache.uima.internal.util.IntArrayUtils.ensure_size(Int

文中 Spark ComposedRuleElement apache java apache-spark uima uimanageddocument ruta

如何将Python函数应用于“从末端” pandas sub-dataframes拆分并获得新的数据框架？

问题从熊猫数据框开始df由dim_df行，我需要一个新的数据框df_new获得将功能应用于每个子数据框维度dim_blk,从最后一行开始分裂（因此，第一个块而不是最后一个块可能具有正确的行数，dim_blk),以最有效的方式（可能被矢量化？）。例子在下面的示例中，数据框是由几行制成的，但是实际的数据框将由数百万行制成，这就是为什么我需要有效的解决方案。dim_df=7#dimensionofthestartingdataframedim_blk=3#numberofrowsofthesplittedblockdf=pd.DataFrame(np.arange(1,dim_df+1),colum

拆分末端 code df pre

Spark与云存储的集成：S3、Azure Blob Storage

在现代数据处理中，云存储服务如AmazonS3和AzureBlobStorage已成为存储和管理数据的热门选择。与此同时，ApacheSpark作为大数据处理框架也备受欢迎。本文将深入探讨如何在Spark中集成云存储服务，并演示如何与S3和AzureBlobStorage进行互操作。将提供丰富的示例代码，以帮助大家更好地理解这一集成过程。为什么使用云存储？云存储服务如S3和AzureBlobStorage具有以下优势：可伸缩性：云存储可以轻松扩展以适应不断增长的数据需求，无需昂贵的硬件投资。持久性：云存储提供了高度持久性的数据存储，以保护数据免受硬件故障或数据丢失的影响。全球性：云存储服务通常

存储集成 span class token spark azure 大数据

java - Spark 中的 URL 模式

我正在尝试制作一个与以下URL相匹配的过滤器:/foo和/foo/*/foo/下的所有内容以及基本情况/foo我有这个过滤器:Spark.before("/foo/*",(request,response)->{Stringticket=request.cookie("session");if(ticket==null){Spark.halt(302);}});当然，当我输入/foo时，这不会执行我尝试了以下但没有成功:/foo*/foo.*/foo/有什么办法可以实现吗？或者也许使用URL列表？这样我就可以将两个url分配给同一个过滤器。并且请不要说将函数存储在变量中以便我使用它两次

Spark java code foo section url-routing spark-java

java - 从 Apache Spark SQL 中的用户定义聚合函数 (UDAF) 返回多个数组

我正在尝试使用ApacheSparkSQL在Java中创建一个用户定义的聚合函数(UDAF)，该函数在完成时返回多个数组。我在网上搜索过，找不到关于如何执行此操作的任何示例或建议。我能够返回单个数组，但无法弄清楚如何在返回多个数组的evaluate()方法中以正确的格式获取数据。UDAF确实有效，因为我可以在evaluate()方法中打印出数组，我只是想不出如何将这些数组返回给调用代码(如下所示以供引用)。UserDefinedAggregateFunctioncustomUDAF=newCustomUDAF();DataFrameresultingDataFrame=dataFram

Apache Spark buffer ArrayList 34 java apache-spark apache-spark-sql aggregate-functions user-defined-functions

大数据 - Spark系列《八》- 闭包引用

Spark系列文章：大数据-Spark系列《一》-从Hadoop到Spark：大数据计算引擎的演进-CSDN博客大数据-Spark系列《二》-关于Spark在Idea中的一些常用配置-CSDN博客大数据-Spark系列《三》-加载各种数据源创建RDD-CSDN博客大数据-Spark系列《四》-Spark分布式运行原理-CSDN博客大数据-Spark系列《五》-Spark常用算子-CSDN博客大数据-Spark系列《六》-RDD详解-CSDN博客大数据-Spark系列《七》-分区器详解-CSDN博客目录8.1.🐶闭包引用的原理1.闭包引用的概念2.闭包引用的副本3.🧀实例代码14.🧀实例代码2

闭包引用 xff0c xff 大数据 spark 分布式

java - 用于 LogisticRegression 的 Spark MLLib TFIDF 实现

我尝试使用spark1.1.0提供的新TFIDF算法。我正在用Java编写MLLib的工作，但我不知道如何让TFIDF实现工作。由于某种原因IDFModel只接受JavaRDD作为方法的输入transform而不是简单的vector。我如何使用给定的类为我的LabeldPoints建模TFIDFvector？注意:文档行的格式为[Label;文]到目前为止，这是我的代码://1.)LoadthedocumentsJavaRDDdata=sc.textFile("/home/johnny/data.data.new");//2.)HashalldocumentsHashingTFtf=n

LogisticRegression Spark code Vector JavaRDD java apache-spark apache-spark-mllib tf-idf

java - 无法解析主 URL : 'spark:http://localhost:18080'

当我尝试运行我的代码时，它抛出了这个Exception:Exceptioninthread"main"org.apache.spark.SparkException:CouldnotparseMasterURL:spark:http://localhost:18080这是我的代码:SparkConfconf=newSparkConf().setAppName("App_Name").setMaster("spark:http://localhost:18080").set("spark.ui.port","18080");JavaStreamingContextssc=newJavaS

amp localhost code spark section java twitter spark-streaming

Spark大数据分析与实战笔记（第三章 Spark RDD 弹性分布式数据集-03）

文章目录每日一句正能量第3章SparkRDD弹性分布式数据集章节概要3.4RDD的分区3.5RDD的依赖关系后记每日一句正能量书籍是最好的朋友。当生活中遇到任何困难的时候，你都能够向它求助，它永远不会背弃你。第3章SparkRDD弹性分布式数据集章节概要传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点，但是其最大缺点是采用非循环式的数据流模型，使得在迭代计算式要进行大量的磁盘IO操作。Spark中的RDD可以很好的解决这一缺点。RDD是Spark提供的最重要的抽象概念，我们可以将RDD理解为一个分布式存储在集群中的大型数据集合，不同RDD之间可以通过转换操作形成依赖关系实现管

数据 Spark 分区 xff0c xff 分布式数据分析

16 17 181920 21 22