草庐IT

spark-streaming

全部标签

java - Spark Streaming Kafka 消息未被消费

我想使用Spark(1.6.2)Streaming从Kafka(代理v0.10.2.1)中的主题接收消息。我正在使用Receiver方法。代码如下:publicstaticvoidmain(String[]args)throwsException{SparkConfsparkConf=newSparkConf().setAppName("SimpleStreamingApp");JavaStreamingContextjavaStreamingContext=newJavaStreamingContext(sparkConf,newDuration(5000));//MaptopicM

合并spark structured streaming处理流式数据产生的小文件

备注:By远方时光原创,可转载,open合作微信公众号:大数据左右手背景:做流批一体,湖仓一体的大数据架构,常见的做法就是数据源->sparkStreaming->ODS(数据湖)->sparkstreaming->DWD(数据湖)->...那么数据源->sparkStreaming->ODS,以这段为例,在数据源通过sparkstructuredstreaming写入ODS在数据湖(DeltaLake)落盘时候必然会产生很多小文件目的:为了在批处理spark-sql运行更快,也避免因为小文件而导致报错影响:WARNING:Failedtoconnectto/172.16.xx.xx:9866

java - 了解 Stream API ForEach Task 中的主循环

似乎JavaStreams并行化的核心是ForEachTask。理解其逻辑似乎对于获得必要的心智模型至关重要,该心智模型可以预测针对StreamsAPI编写的客户端代码的并发行为。然而,我发现我的预期与实际行为相矛盾。作为引用,这里是关键的compute()方法(java/util/streams/ForEachOps.java:253):publicvoidcompute(){SpliteratorrightSplit=spliterator,leftSplit;longsizeEstimate=rightSplit.estimateSize(),sizeThreshold;if((

java - 无法使用来自 Spark 的 GSC 连接器连接 Google 存储文件

我在我的本地机器上编写了一个spark作业,它使用谷歌hadoop连接器(如https://cloud.google.com/dataproc/docs/connectors/cloud-storage中提到的gs://storage.googleapis.com/从谷歌云存储读取文件)我已经设置了具有计算引擎和存储权限的服务帐户。我的spark配置和代码是SparkConfconf=newSparkConf();conf.setAppName("SparkAPp").setMaster("local");conf.set("google.cloud.auth.service.acco

java - 使用 Kerberos 设置 Spark SQL 连接

我有一个简单的Java应用程序,它可以使用Hive或Impala使用如下代码连接和查询我的集群importjava.sql.Connection;importjava.sql.DriverManager;importjava.sql.ResultSet;importjava.sql.SQLException;importjava.sql.Statement;...Class.forName("com.cloudera.hive.jdbc41.HS2Driver");Connectioncon=DriverManager.getConnection("jdbc:hive2://myHos

java - Spark : Read an inputStream instead of File

我在Java应用程序中使用SparkSQL对CSV文件进行一些处理,使用Databricks进行解析。我正在处理的数据来自不同的来源(远程URL、本地文件、谷歌云存储),我习惯于将所有内容都变成一个InputStream,这样我就可以在不知道数据来自哪里的情况下解析和处理数据来自。我在Spark上看到的所有文档都是从路径读取文件,例如SparkConfconf=newSparkConf().setAppName("spark-sandbox").setMaster("local");JavaSparkContextsc=newJavaSparkContext(conf);SQLCont

java - Surefire Maven 插件 : "Corrupted STDOUT by directly writing to native stream in forked JVM"

我的JUnit测试在通过Maven和Surefire插件(下面的版本信息)运行时失败了。我看到错误消息:CorruptedSTDOUTbydirectlywritingtonativestreaminforkedJVM4.SeeFAQwebpageandthedumpfileC:\(...)\target\surefire-reports\2019-03-20T18-57-17_082-jvmRun4.dumpstreamFAQ页面指出了一些可能的原因,但我不知道如何使用这些信息来开始解决这个问题:CorruptedSTDOUTbydirectlywritingtonativestre

Spark写入kafka(批数据和流式)

Spark写入(批数据和流式处理)Spark写入kafka批处理写入kafka基础#spark写入数据到kafkafrompyspark.sqlimportSparkSession,functionsasFss=SparkSession.builder.getOrCreate()#创建df数据df=ss.createDataFrame([[9,'王五',21,'男'],[10,'大乔',20,'女'],[11,'小乔',22,'女']],schema='idint,namestring,ageint,genderstring')df.show()#todo注意一:需要拼接一个value#在写入

java - 如何访问 spark javadoc 或来自 java 项目的源代码?

我在IntelliJ14CE上使用Java项目中的Spark。有没有办法导航到Spark源或javadoc?默认情况下,它只显示粗略的反编译代码,没有任何注释。如果有办法的话,我不介意导航到scala代码。但也许插入javadoc会更好,但我在任何地方都找不到它谢谢 最佳答案 我的诀窍是为IntelliJ安装Scala插件,然后我能够通过spark核心(用scala编写)进行导航和调试,尽管项目是用Java编写的,并且正确地看到Javadoc,它是从scala源代码中自动推断出来的。当然,您还需要正确设置Spark源代码,使用Gra

java - 使用 Streams 实现 Java 数据透视表

我这几天一直在为这个问题苦苦挣扎。我正在尝试使用JavaStreams创建Pivot功能。我只需要执行SUM、COUNT、MAX、MIN和AVERAGE。对于输入,我得到了一个数据透视列索引、一个数据透视行索引数组和要计算的值。要注意的是数据在List>中,其中Object可以是String、Integer或Double。但直到运行时我才知道。我必须以List>的形式返回我的结果。我在处理MAX/MIN时遇到问题(我假设AVERAGE与MAX和MIN相似)为了以多个表值为中心,我创建了一个类来使用我的第二个groupingBy这不会编译,我不确定要比较什么,在哪里将对象转换为int或者