草庐IT

spark-core

全部标签

java - Spark Streaming 历史状态

我正在构建用于检测欺诈ATM卡交易的实时处理。为了有效地检测欺诈,逻辑需要卡的最后交易日期,每天(或最近24小时)的交易金额总和其中一个用例是,如果在该国家/地区的最后一次交易超过30天后在本国境外进行的卡交易,则发送可能存在欺诈的警报因此尝试将Spark流式处理视为一种解决方案。为了实现这一点(可能我缺少关于函数式编程的想法)下面是我的伪代码stream=ssc.receiverStream()//inputreceivers1=stream.mapToPair()//createskeywithcardandtransactiondateasvalues2=stream.reduc

java - 在 Spark 中使用 Function 实现的序列化问题

我无法理解Java中的Spark函数实现。Thedocumentation给出了三种在map和reduce中使用函数的方法:通过lambda通过实现Function和Function2的内联类通过实现Function和Function2的内部类问题是我无法使2.和3.工作。例如,这段代码:publicintcountInline(Stringpath){Stringmaster="local";SparkConfconf=newSparkConf().setAppName("charCounterInLine").setMaster(master);JavaSparkContextsc

java - Spark 连接器错误 : WARN NettyUtil: Found Netty's native epoll transport, 但未在基于 linux 的操作系统上运行。改用 NIO

这是我的规范:Cassandra版本:3.0.0操作系统:MacOSXYosemite10.10.5Spark版本:1.4.1上下文:我在Cassandra中创建了一个键空间“movies”和一个表“movieinfo”。我已经按照post的指导安装并组装了一个jar文件。我编写了一个小脚本(如下)来测试我的连接:scala>sc.stopscala>importcom.datastax.spark.connector._importcom.datastax.spark.connector._scala>importorg.apache.spark.SparkConfimportorg

java - 在 Spark 中排序时出现 NotSerializableException

我正在尝试编写一个简单的流处理Spark作业,它将获取消息列表(JSON格式),每条消息属于一个用户,计算每个用户的消息并打印前十名用户。但是,当我定义Comparator>来对减少的计数进行排序时,整个事情都失败了,并抛出了java.io.NotSerializableException。我对Spark的Maven依赖:org.apache.sparkspark-core_2.9.30.8.0-incubating我正在使用的Java代码:publicstaticvoidmain(String[]args){JavaSparkContextsc=newJavaSparkContext

java - Spark SQL 性能

我的代码算法如下第一步。获取一个hbase实体数据到hBaseRDDJavaPairRDDhBaseRDD=jsc.newAPIHadoopRDD(hbase_conf,TableInputFormat.class,ImmutableBytesWritable.class,Result.class);第二步。将hBaseRDD转换为rowPairRDD//intherowPairRDDthekeyishbase'srowkey,TheRowisthehbase'sRowdataJavaPairRDDrowPairRDD=hBaseRDD.mapToPair(***);dataRDD.r

java - 无法加载“类路径资源 [org/springframework/ws/client/core/WebServiceTemplate.properties]

我编写了一些代码,其中我正在使用另一个网络服务并使用WebServiceTemplate向该网络服务发送请求。但是当该代码触发时,我得到以下异常。我已经检查了SpringCore的库,一切似乎都正常,但不知道为什么这个服务会抛出这样的异常。应用程序上下文:服务:publicclassManageContactServiceextendsWebServiceGatewaySupport{privateWebServiceTemplatemanageContactsWSTemplate;publicWebServiceTemplategetManageContactsWSTemplate(

java - Struts + GAE java.security.AccessControlException : access denied of struts2-core-2. 3.15.3.jar

我在GAE中使用struts。我正在使用GAE1.8和struts2.3.15jar文件。在我的申请中我遇到了这个异常java.security.AccessControlException:accessdenied("java.io.FilePermission""jar:file:\E:\eclipse\Shaun\Convergent\war\WEB-INF\lib\struts2-core-2.3.15.3.jar""read")atjava.security.AccessControlContext.checkPermission(AccessControlContext.j

OpenGL 3.3 core与OpenGLES 3.0的VAO与VBO使用差距

背景学完《LearnOpenGL》之后,又开始看安卓端的OpenGLES,发现有如下代码://这是用于GLESGLfloatvVertices[]={0.0f,0.5f,0.0f,-0.5f,-0.5f,0.0f,0.5f,-0.5f,0.0f,};//LoadthevertexdataglVertexAttribPointer(0,3,GL_FLOAT,GL_FALSE,0,vVertices);glEnableVertexAttribArray(0);第一次看这段代码我困惑于为什么不用创建对应的VAO和VBO,而是直接使用glVertexAttribPointer,后来查阅发现《Learn

java.lang.NoClassDefFoundError : Could not initialize class when launching spark job via spark-submit in scala code 错误

我有一个代码,如下所示objectErrorTest{caseclassAPIResults(status:String,col_1:Long,col_2:Double,...)deffuncA(rows:ArrayBuffer[Row])(implicitdefaultFormats:DefaultFormats):ArrayBuffer[APIResults]={//callsomeAPIanggetresultsandreturnAPIResults...}//MARK:loadpropertiesvalprops=loadProperties()privatedefloadPr

java - Spark Dataframe Write to CSV 在 Standalone Cluster Mode 下创建_temporary 目录文件

我在一个有2个工作节点的集群中运行sparkjob!我正在使用下面的代码(sparkjava)将计算的数据帧作为csv保存到工作节点。dataframe.write().option("header","false").mode(SaveMode.Overwrite).csv(outputDirPath);我试图了解spark如何在每个工作节点上写入多个部分文件。Run1)worker1有partfiles和SUCCESS;worker2有_temporarty/task*/part*每个任务都有部分文件运行。Run2)worker1有部分文件和_temporary目录;worker2