草庐IT

apache-spark-1.6

全部标签

java - Spark Streaming 历史状态

我正在构建用于检测欺诈ATM卡交易的实时处理。为了有效地检测欺诈,逻辑需要卡的最后交易日期,每天(或最近24小时)的交易金额总和其中一个用例是,如果在该国家/地区的最后一次交易超过30天后在本国境外进行的卡交易,则发送可能存在欺诈的警报因此尝试将Spark流式处理视为一种解决方案。为了实现这一点(可能我缺少关于函数式编程的想法)下面是我的伪代码stream=ssc.receiverStream()//inputreceivers1=stream.mapToPair()//createskeywithcardandtransactiondateasvalues2=stream.reduc

java - 在 Spark 中使用 Function 实现的序列化问题

我无法理解Java中的Spark函数实现。Thedocumentation给出了三种在map和reduce中使用函数的方法:通过lambda通过实现Function和Function2的内联类通过实现Function和Function2的内部类问题是我无法使2.和3.工作。例如,这段代码:publicintcountInline(Stringpath){Stringmaster="local";SparkConfconf=newSparkConf().setAppName("charCounterInLine").setMaster(master);JavaSparkContextsc

java - 使用 Apache POI 将结果集转为 Excel (*.xlsx) 表格

我正在尝试使用ApachePoi将ResultSet写入Excel(*.xlsx)表。OfficeExcel中的无效表格对象错误然而,即使它写入Excel文件没有任何错误,当我尝试在OfficeExcel2013中打开它时,它显示错误并删除表格对象以仅提供纯数据View。这是粗略的示例代码usingthisexample:publicstaticvoidwriteExcel(ResultSetrs,intsqliteRowCount,Stringdir){System.out.println("WritingExcel(*.xlsx)File...");XSSFWorkbookwork

java - Apache Storm spout 可以相互通信吗?

我有一个目录,另一个进程将文件放入其中。我们当前的Storm实现读取此目录并选择最旧的文件并打开文件读取器。该读取器作为spout中的一个字段保存,因此当调用nextTuple()时,将从文件中输出一行。spout完成读取后,它会关闭读取器并打开一个新读取器来读取新文件。为了提高吞吐量,一个想法是让多个spouts一次读取多个文件,因为这些spouts将争夺同一目录中的相同文件,有没有办法在spouts之间进行通信,以便它们可以协商哪些文件阅读?(或者有一个总经理将文件分配给喷口)。目录和文件从HDFS存储和读取。 最佳答案 我认为

java - 使用 SSH 的 Apache Felix shell

我对如何通过SSH使用ApacheFelix感兴趣?我想使用SSH从远程计算机访问Felixshell。我知道有telnet支持,但它太不安全了。有什么解决办法吗? 最佳答案 是的,有一个,如描述的那样here(该指南是相对于eclipse的春分点但没关系)使用gogoshell的组合,apacheminasshd服务器和三equinoxconsolebundles(core+sshplugin+jaaspluginforsshauthentication)你将能够连接到mina的ssh服务器,你与OSGi相关的命令将由gogosh

java - Spark 连接器错误 : WARN NettyUtil: Found Netty's native epoll transport, 但未在基于 linux 的操作系统上运行。改用 NIO

这是我的规范:Cassandra版本:3.0.0操作系统:MacOSXYosemite10.10.5Spark版本:1.4.1上下文:我在Cassandra中创建了一个键空间“movies”和一个表“movieinfo”。我已经按照post的指导安装并组装了一个jar文件。我编写了一个小脚本(如下)来测试我的连接:scala>sc.stopscala>importcom.datastax.spark.connector._importcom.datastax.spark.connector._scala>importorg.apache.spark.SparkConfimportorg

java - Apache Camel Kafka - 聚合 kafka 消息并定期发布到不同的主题

我有一个用例:我需要定期读取和聚合来自kafka主题的消息,然后发布到不同的主题。本地存储不是一个选项。这就是我计划解决这个问题的方式,欢迎提出任何改进建议为了调度kafka消息的聚合和发布,计划使用AggregatorEIP的completionInterval选项。这是代码。@AutowiredObjectMapperobjectMapper;JacksonDataFormatjacksonDataFormat;@PostConstructpublicvoidinitialize(){//objectMapper.setPropertyNamingStrategy(Property

java - Apache 事务 :write file transactionally - how to use resourceId

如果有人实现了事务写入文件,请帮助我。相关主题已在较早的线程(transactionalwrite)中讨论过。用例如下:如果写入日志文件失败,应回滚相应的数据库事务。因此写入文件应该以事务方式执行。我选择了ApacheCommonsTransaction库。有问题,这不会让我更进一步,因为没有找到合适的文档或示例。我已经创建了FileResourceManager实例:FileResourceManagerfrm=newFileResourceManager("c:\cur","c:\cur",true,logger);据我了解ApacheCommonsTransactiontutor

java - Apache 的 Velocity — getTemplate() 。如何传递字符串/对象而不是 .VM 文件

Apache的Velocity—getTemplate()。实际上它允许传递.vm文件名,我可以在这里传递字符串/对象吗?是否有任何方法可用于传递字符串/对象? 最佳答案 这是适合我的示例代码。极速版本:1.7我使用log4j作为记录器。importorg.apache.log4j.Logger;importorg.apache.velocity.Template;importorg.apache.velocity.VelocityContext;importorg.apache.velocity.app.Velocity;impo

java - 将 Apache POI 工作簿作为附件添加到 Javamail 的 MimeMessage 中,而无需在文件系统中写入

我正在尝试弄清楚如何将WorkBook(来自ApachePOI库)“直接”传递给MimeMessage对象(来自Javamail库)附件,而不必直接将其写入文件系统。最简单的方法如下:FileattachmentSource=newFile("tmpsource.xls");WorkBooktmpWorkbook=newHSSFWorkBook();//DostuffwithworkbooktmpWorkBook.write(newFileOutputStream(attachmentSource));//CreatealltheSession,MimeMessageandMimeMu