草庐IT

spark-app

全部标签

java - Google App Engine Blobstore 和 ReSTLet - "Must be called from a blob upload callback request"

错误Causedby:java.lang.IllegalStateException:Mustbecalledfromablobuploadcallbackrequest.atcom.google.appengine.api.blobstore.BlobstoreServiceImpl.getUploads(BlobstoreServiceImpl.java:169)代码publicclassUserUploadProfilePictureResourceextendsServerResource{@PostpublicvoidhandleBlobstoreUpload(Represe

java - Spark Streaming 历史状态

我正在构建用于检测欺诈ATM卡交易的实时处理。为了有效地检测欺诈,逻辑需要卡的最后交易日期,每天(或最近24小时)的交易金额总和其中一个用例是,如果在该国家/地区的最后一次交易超过30天后在本国境外进行的卡交易,则发送可能存在欺诈的警报因此尝试将Spark流式处理视为一种解决方案。为了实现这一点(可能我缺少关于函数式编程的想法)下面是我的伪代码stream=ssc.receiverStream()//inputreceivers1=stream.mapToPair()//createskeywithcardandtransactiondateasvalues2=stream.reduc

java - 在 Spark 中使用 Function 实现的序列化问题

我无法理解Java中的Spark函数实现。Thedocumentation给出了三种在map和reduce中使用函数的方法:通过lambda通过实现Function和Function2的内联类通过实现Function和Function2的内部类问题是我无法使2.和3.工作。例如,这段代码:publicintcountInline(Stringpath){Stringmaster="local";SparkConfconf=newSparkConf().setAppName("charCounterInLine").setMaster(master);JavaSparkContextsc

java - Spark 连接器错误 : WARN NettyUtil: Found Netty's native epoll transport, 但未在基于 linux 的操作系统上运行。改用 NIO

这是我的规范:Cassandra版本:3.0.0操作系统:MacOSXYosemite10.10.5Spark版本:1.4.1上下文:我在Cassandra中创建了一个键空间“movies”和一个表“movieinfo”。我已经按照post的指导安装并组装了一个jar文件。我编写了一个小脚本(如下)来测试我的连接:scala>sc.stopscala>importcom.datastax.spark.connector._importcom.datastax.spark.connector._scala>importorg.apache.spark.SparkConfimportorg

java - 如何在不超过分钟配额的情况下在 Google App Engine 上使用 Java?

doGet()servlet中的一个非常简单的java代码在GAE上占用了超过一秒的cpu时间。我已经阅读了一些与配额相关的文档,显然我没有做错任何事。//RequesttheuserAgentinfoStringuserAgent=req.getHeader("User-Agent");我想知道什么使用CPU最多,我使用了google帮助推荐。//ThetwolinesbelowwillgettheCPUbeforerequestingUser-AgentInformationQuotaServiceqs=QuotaServiceFactory.getQuotaService();l

java - 在 google app engine java 本地数据存储中添加/编辑实体

以下是与GAE/J本地开发设置相关的:如何在本地数据存储中添加/编辑实体(最好使用某些UI)?_ah/admin只允许查看实体。在本地JUnit测试用例中,如何访问我的本地Web应用程序写入的同一数据存储区数据?我根据http://code.google.com/appengine/docs/java/tools/localunittesting.html编写了我的测试用例但测试用例不会访问Web应用程序使用的相同数据。如何在clean-build之间保存本地数据存储数据(现在local_db.bin写在不时清理的目标目录中)正在使用的堆栈:GoogleAppEngineforJava

java - 如何为 App Engine/Java 上的单个请求暂停 appstats?

我通常在我的沙盒appid上全时运行appstats。但是,我有一个复杂的操作(基本上是重建股票数据库)导致appstats炸毁我的实例,抛出OutOfMemoryErrors。即使具有更大的实例大小,它仍然会失败。Appstats只是需要太多RAM。我不需要此请求的appstats。理想情况下,我会在负责收集appstats的任何ThreadLocal对象上调用一个方法,并告诉它转动拇指几分钟。我考虑过扩展AppstatsFilter以忽略某些URL,但有问题的请求作为延迟任务执行并通过路径识别它有些复杂。如何让appstats暂停?以防万一不清楚:我现在正在做的是上传一个禁用了ap

java - 在 Spark 中排序时出现 NotSerializableException

我正在尝试编写一个简单的流处理Spark作业,它将获取消息列表(JSON格式),每条消息属于一个用户,计算每个用户的消息并打印前十名用户。但是,当我定义Comparator>来对减少的计数进行排序时,整个事情都失败了,并抛出了java.io.NotSerializableException。我对Spark的Maven依赖:org.apache.sparkspark-core_2.9.30.8.0-incubating我正在使用的Java代码:publicstaticvoidmain(String[]args){JavaSparkContextsc=newJavaSparkContext

java - 在 Intellij 中,当我在本地运行 Google App Engine 时,为什么必须清理和构建 war 才能看到变化?

我正在使用googleappengine建立war,我注意到每当我进行本地更改时,当我在本地运行时它们永远不会应用。我发现要查看我所做的更改的唯一方法是运行mvnclean,然后生成,然后构建Artifact,然后部署。这是显示我的配置的屏幕截图:如果我遗漏了这些步骤中的任何一个,重新启动服务器不会显示我所做的任何更改。我以前用intellij制作过很多非谷歌应用引擎的网络应用程序,我通常不必这样做。我怎样才能避免所有这些步骤?它们大大增加了重新启动服务器所需的时间。如果有帮助,这是我的pom.xml文件:4.0.0war1.0-SNAPSHOTcom.myappmyapp11.8.6

java - Spark SQL 性能

我的代码算法如下第一步。获取一个hbase实体数据到hBaseRDDJavaPairRDDhBaseRDD=jsc.newAPIHadoopRDD(hbase_conf,TableInputFormat.class,ImmutableBytesWritable.class,Result.class);第二步。将hBaseRDD转换为rowPairRDD//intherowPairRDDthekeyishbase'srowkey,TheRowisthehbase'sRowdataJavaPairRDDrowPairRDD=hBaseRDD.mapToPair(***);dataRDD.r