Spark-configuration

java - Spark - 方案 : https, 的无文件系统无法从 Amazon S3 加载文件

我正在尝试通过以下方式从AmazonS3存储桶加载一些数据:SparkConfsparkConf=newSparkConf().setAppName("Importer");JavaSparkContextctx=newJavaSparkContext(sparkConf);HiveContextsqlContext=newHiveContext(ctx.sc());DataFramemagento=sqlContext.read().json("https://s3.eu-central-1.amazonaws.com/*/*.json");最后一行会抛出一个错误:Exception

java - 如何确保使用 Spring @Configuration 注释初始化依赖配置？

我正在尝试使用@Configuration注释来连接我的应用程序，但我一直在其中一个初始化程序中收到NullPointerException异常，因为它引用的bean尚未初始化(我认为)。我尝试在web.xml中仅指定“root”配置类，并尝试进行包扫描，但似乎都不起作用。对大代码转储感到抱歉。我试图生成一组更简单的类来重现该问题，但是当然，当我这样做时，一切正常。这是我的类(class)(省略了导入):数据源配置.java:@ConfigurationpublicclassDataSourceConfig{publicDataSourceConfig(){System.err.pri

Configuration Spring springframework bean code java

java - Apache Spark Lambda 表达式 - 序列化问题

我尝试在spark任务中使用lambda表达式，它抛出“java.lang.IllegalArgumentException:无效的lambda反序列化”异常。当代码类似于"transform(pRDD->pRDD.map(t->t._2))"时会抛出此异常。代码片段如下。JavaPairDStreamaggregate=pairRDD.reduceByKey((x,y)->x+y);JavaDStreamcon=aggregate.transform((Function,JavaRDD>)pRDD->pRDD.map((Function,Integer>)t->t._2));Java

Apache Lambda Integer String gt java serialization apache-spark

java - Spark Streaming 历史状态

我正在构建用于检测欺诈ATM卡交易的实时处理。为了有效地检测欺诈，逻辑需要卡的最后交易日期，每天(或最近24小时)的交易金额总和其中一个用例是，如果在该国家/地区的最后一次交易超过30天后在本国境外进行的卡交易，则发送可能存在欺诈的警报因此尝试将Spark流式处理视为一种解决方案。为了实现这一点(可能我缺少关于函数式编程的想法)下面是我的伪代码stream=ssc.receiverStream()//inputreceivers1=stream.mapToPair()//createskeywithcardandtransactiondateasvalues2=stream.reduc

Streaming Spark section apache java scala apache-spark shark-sql spark-streaming

java - 在 Spark 中使用 Function 实现的序列化问题

我无法理解Java中的Spark函数实现。Thedocumentation给出了三种在map和reduce中使用函数的方法:通过lambda通过实现Function和Function2的内联类通过实现Function和Function2的内部类问题是我无法使2.和3.工作。例如，这段代码:publicintcountInline(Stringpath){Stringmaster="local";SparkConfconf=newSparkConf().setAppName("charCounterInLine").setMaster(master);JavaSparkContextsc

Function Spark code DAGScheduler scala java apache-spark

java - Spring Boot，@Autowire 使用@Configurable 和加载时间织入非托管类

我有一组在Spring之外实例化的非托管类。我一直在尝试使用SpringAOP，加载时将@Autowire一个bean编织到这些类中，但到目前为止还没有成功。我一直在使用Tomcat8和SpringBoot1.2.0进行测试。我尝试设置类的@Configuration如下所示:@Configuration@PropertySource("classpath:application.properties")@EnableSpringConfigured@EnableLoadTimeWeavingpublicclassConfig在Config中，我将要@Auotwire的bean定义到我

Configurable Autowire code gt lt java spring spring-boot aspectj spring-aop

java - Spark 连接器错误 : WARN NettyUtil: Found Netty's native epoll transport, 但未在基于 linux 的操作系统上运行。改用 NIO

这是我的规范:Cassandra版本:3.0.0操作系统:MacOSXYosemite10.10.5Spark版本:1.4.1上下文:我在Cassandra中创建了一个键空间“movies”和一个表“movieinfo”。我已经按照post的指导安装并组装了一个jar文件。我编写了一个小脚本(如下)来测试我的连接:scala>sc.stopscala>importcom.datastax.spark.connector._importcom.datastax.spark.connector._scala>importorg.apache.spark.SparkConfimportorg

改用 NettyUtil spark scala iwC java macos maven apache-spark cassandra

java - 在 Spark 中排序时出现 NotSerializableException

我正在尝试编写一个简单的流处理Spark作业，它将获取消息列表(JSON格式)，每条消息属于一个用户，计算每个用户的消息并打印前十名用户。但是，当我定义Comparator>来对减少的计数进行排序时，整个事情都失败了，并抛出了java.io.NotSerializableException。我对Spark的Maven依赖:org.apache.sparkspark-core_2.9.30.8.0-incubating我正在使用的Java代码:publicstaticvoidmain(String[]args){JavaSparkContextsc=newJavaSparkContext

时出中排 DAGScheduler scala String java sorting apache-spark notserializableexception

java - Spark SQL 性能

我的代码算法如下第一步。获取一个hbase实体数据到hBaseRDDJavaPairRDDhBaseRDD=jsc.newAPIHadoopRDD(hbase_conf,TableInputFormat.class,ImmutableBytesWritable.class,Result.class);第二步。将hBaseRDD转换为rowPairRDD//intherowPairRDDthekeyishbase'srowkey,TheRowisthehbase'sRowdataJavaPairRDDrowPairRDD=hBaseRDD.mapToPair(***);dataRDD.r

Spark java strong code hbase apache-spark rdd apache-spark-sql

java - 如何将@Configuration 和@EnableScheduling 与Spring Batch 一起使用

因为“只有返回无效的方法可以用@Scheduled注释”，当我使用@Bean配置时如何使用SpringBatch和SpringSchedulerTask的xml配置？您可以在下面找到我的完整配置文件。当我从main()触发但只有一次时，它运行完美。我想添加@Scheduled(fixedrate=9999)以便以特定频率调用相同的作业。据我所知，为了做到这一点，我应该在step1方法周围添加@Scheduled但我不能，因为它返回的值与void不同。@Configuration@EnableBatchProcessing@EnableSchedulingpublicclassBatch

EnableScheduling Configuration Person myImportJob jobLauncher java spring spring-boot spring-batch spring-scheduled