spark-ml

windows - Spark 2.0 : Relative path in absolute URI (spark-warehouse)

我正在尝试从Spark1.6.1迁移到Spark2.0.0，但在尝试将csv文件读入SparkSQL时出现奇怪的错误。以前，当我在pyspark中从本地磁盘读取文件时，我会这样做:星火1.6df=sqlContext.read\.format('com.databricks.spark.csv')\.option('header','true')\.load('file:///C:/path/to/my/file.csv',schema=mySchema)在最新版本中我认为它应该是这样的:星火2.0spark=SparkSession.builder\.master('local[*]

spark-warehouse warehouse 39 spark code windows apache-spark pyspark apache-spark-sql pyspark-sql

开启Back Pressure使生产环境的Spark Streaming应用更稳定、有效

为了SparkStreaming应用能在生产中稳定、有效的执行，每批次数据处理时间（批处理时间）必须非常接近批次调度的时间间隔（批调度间隔），并且要一直低于批调度间隔。如果批处理时间一直高于批调度间隔，调度延迟就会一直增长并且不会恢复。最终，SparkStreaming应用会变得不再稳定。另一方面，如果批处理时间长时间远小于批调度间隔，就会浪费集群资源。当SparkStreaming与Kafka使用DirectAPI集群时，我们可以很方便的去控制最大数据摄入量--通过一个被称作spark.streaming.kafka.maxRatePerPartition的参

Streaming Pressure 摄入量摄入

2023_Spark_实验十四：SparkSQL入门操作

1、将emp.csv、dept.csv文件上传到分布式环境，再用 hdfs dfs-putdept.csv/input/hdfs dfs-putemp.csv/input/将本地文件put到hdfs文件系统的input目录下2、或者调用本地文件也可以。区别：sc.textFile("file:///D:\\temp\\emp.csv")import org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.types._import spark.implicits._caseclassEmp(empno:Int,ename:S

SparkSQL 入门 34 构造器 StructField spark 大数据分布式

ML分类模型的评估量 —— 混淆矩阵、查准率、查全率、正确率、F1值

ML分类模型的评估量——混淆矩阵、查准率、查全率、正确率、F1值SomeMetricssuitableformachinelearningclassificationmodel-ConfusionMatrix,PrecisionScore,RecallScoreandF1Score.文章目录ML分类模型的评估量——混淆矩阵、查准率、查全率、正确率、F1值概要1.混淆矩阵（ConfusionMatrix）二分类模型的混淆矩阵多分类模型的混淆矩阵2.查准率（PrecisionScore）又称“准确率”宏查准率&微查准率3.查全率（RecallScore）又称“召回率”宏查全率&微查全率4.正确率（

查准率查全率 span class style 分类矩阵机器学习

apache-kafka - Spark Streaming scala 性能极慢

我有以下代码:-caseclassevent(imei:String,date:String,gpsdt:String,dt:String,id:String)caseclasshistoryevent(imei:String,date:String,gpsdt:String)objectkafkatesting{defmain(args:Array[String]){valclients=newRedisClientPool("192.168.0.40",6379)valconf=newSparkConf().setAppName("KafkaReceiver").set("spar

apache-kafka Streaming 34 val fleetrecord redis cassandra spark-streaming spark-cassandra-connector

apache-spark - Spark-redis:数据帧写入时间太慢

我是ApacheSpark/Redis用户，最近我尝试了spark-redis对于一个项目。该程序正在生成大约300万行的PySpark数据帧，我正在使用以下命令将其写入Redis数据库df.write\.format("org.apache.spark.sql.redis")\.option("table","person")\.option("key.column","name")\.save()如GitHubprojectdataframepage中的建议.但是，对于相同的Spark集群配置(相同数量的EC2实例和实例类型)，我的写入时间不一致。有时它发生得非常快，有时又太慢了。

apache-spark Spark-redis section redis spark dataframe pyspark

java - 解决Apache Spark中的依赖性问题

构建和部署Spark应用程序时的常见问题是：java.lang.ClassNotFoundExceptionobjectxisnotamemberofpackagey编译错误。java.lang.NoSuchMethodError如何解决这些问题？最佳答案 apachespark的类路径是动态构建的（以适应每个应用程序的用户代码），这使得它容易受到此类问题的攻击。@user7337271的答案是正确的，但还有一些问题，这取决于您使用的集群管理器（“master”）。首先，spark应用程序由这些组件组成（每个组件都是单独的jvm，

依赖性 Apache code spark 驱动 java scala apache-spark classnotfoundexception nosuchmethoderror

使用Apache Spark Job在HDP中创建蜂巢表

我已经在Eclipse中写下了以下Scala程序，用于从HDFS中的位置读取CSV文件，然后将该数据保存到蜂巢表中[我使用的是在本地计算机上存在的VMware上运行的HDP2.4沙盒]：importorg.apache.spark.SparkConfimportorg.apache.spark.SparkContextimportorg.apache.spark.sql.SQLContextimportorg.apache.spark.sql.hive.HiveContextobjectHDFS2HiveFileRead{defmain(args:Array[String]){valconf=

中创蜂巢 io spark

Spark Streaming实时数据处理

作者：禅与计算机程序设计艺术1.简介ApacheSpark™Streaming是一个构建在ApacheSpark™之上的快速、微批次、容错的流式数据处理系统，它可以对实时数据进行高吞吐量、低延迟地处理。SparkStreaming既可用于流计算场景也可用于离线批处理场景，而且可以将结构化或无结构化数据源（如Kafka、Flume、Kinesis）的数据实时流式传输到HDFS、HBase、Kafka等存储中。它具有高吞吐量、容错性、易扩展性、复杂的容错机制和丰富的API支持。本文主要介绍了SparkStreaming的相关知识，并通过例子帮助读者快速上手SparkStreaming。2.基本概念

数据处理实时数据容错 Streaming 大数据人工智能语言模型 Java Python 架构设计

rest - Spark 流而不是 java REST API

我们有一个现有的应用程序，它从rest端点接收数据。进行一些过滤和操作并将其存储到redis(内存数据库)。发送者是接收者(这里的接收者是从蓝牙信标接收数据并将数据发送到其余端点的设备)并且有效载荷不大，但频率很高(每秒数万次)。这有时会发生变化应用程序。由于spark被认为是流处理的良好候选者，我们的计划是保持端点相同(因为更改端点将需要在所有地理区域的所有接收器中手动更改它)并在其余部分以某种方式使用spark应用程序以有效的方式处理和插入数据。Spark小批量作业将是一个问题，因为我们必须在短时间内以某种方式将数据存储在应用程序中，为此我们必须实现一些Q，增加了复杂性。任何人都可

Spark rest section 接收者并将 apache-spark redis jax-rs spark-streaming

108 109 110111112 113 114