草庐IT

spark-csv

全部标签

java - 无法解析主 URL : 'spark:http://localhost:18080'

当我尝试运行我的代码时,它抛出了这个Exception:Exceptioninthread"main"org.apache.spark.SparkException:CouldnotparseMasterURL:spark:http://localhost:18080这是我的代码:SparkConfconf=newSparkConf().setAppName("App_Name").setMaster("spark:http://localhost:18080").set("spark.ui.port","18080");JavaStreamingContextssc=newJavaS

java - 如何获取用于在 Jconsole 中创建图形的 csv 数据

这里是新手。我有一个Java应用程序,我正在努力监视该Java应用程序。我开始了解使用'JConsole'的java监控和管理控制。它提供了有关正在运行的Java进程的非常详细的图形信息。但我想知道的是用于生成图表的数据。在JConsole中,我们可以通过右键单击运行图将数据保存为csv格式,是否有任何命令行选项可以仅以csv格式获取数据。 最佳答案 command-lineoptionsforJConsole仅用于启动JConsole,不用于导出其结果。从JConsole获取数据的唯一方法是通过JMXMBeans,如本SOansw

Spark大数据分析与实战笔记(第三章 Spark RDD 弹性分布式数据集-03)

文章目录每日一句正能量第3章SparkRDD弹性分布式数据集章节概要3.4RDD的分区3.5RDD的依赖关系后记每日一句正能量书籍是最好的朋友。当生活中遇到任何困难的时候,你都能够向它求助,它永远不会背弃你。第3章SparkRDD弹性分布式数据集章节概要传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操作。Spark中的RDD可以很好的解决这一缺点。RDD是Spark提供的最重要的抽象概念,我们可以将RDD理解为一个分布式存储在集群中的大型数据集合,不同RDD之间可以通过转换操作形成依赖关系实现管

java - 使用 opencsv 读取远程 .csv 文件

我已经考虑了很长时间了。我正在尝试从Yahoo!'sStockAPI下载数据.当您使用API时,它会为您提供一个.csv文件。我一直在看opencsv,它看起来很完美,除了我想避免downloadingandsavingthefile,如果可能的话。OpenCSV,根据examples,只能从FileReader读取。根据Oracle的docsonFileReader,文件需要是本地的。是否可以在不下载的情况下使用OpenCSV从远程文件读取? 最佳答案 CSVReader根据thedocumentation采用Reader参数,因

Spark与ApacheCassandra集成与优化

1.背景介绍1.背景介绍ApacheSpark是一个快速、通用的大数据处理框架,它可以处理批量数据和流式数据,支持多种编程语言,如Scala、Python、R等。ApacheCassandra是一个分布式、高可用的NoSQL数据库,它可以存储大量数据,支持高并发访问。在大数据处理和分析中,Spark和Cassandra是常见的技术选择。本文将介绍Spark与Cassandra的集成和优化,包括核心概念、算法原理、最佳实践、实际应用场景等。2.核心概念与联系2.1Spark与Cassandra的集成Spark可以通过Spark-Cassandra连接器(Spark-CassandraConnec

问题:Spark SQL 读不到 Flink 写入 Hudi 表的新数据,打开新 Session 才可见

博主历时三年精心创作的《大数据平台架构与原型实现:数据中台建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行,点击《重磅推荐:建大数据平台太难了!给我发个工程原型吧!》了解图书详情,京东购书链接:https://item.jd.com/12677623.html,扫描左侧二维码进入京东手机购书页面。问题描述使用Flink向Hudi表中写入数据,使用SparkSQL的Shell查询Hudi表(使用的是HudiHMSCatalog统一管理和同步Hudi表的元数据),结果在Spark中只能查询到打开Shell之前表中的数据,之后通过Flink写入的数据不可见,但重新打开一个新的Spa

java - Firefox 不会将此文件下载为 CSV

我已经尝试了所有我能想到的。我已经更改了100次mime类型。更改标题400次。我已经通过堆栈查看了十几次。这在Chrome中运行良好。当我在Firefox中下载时,它认为这是一个xlsx文件或二进制文件。它甚至以xlsx格式打开,但它认为它不是csv,因此列没有分开。如果我保存文件(而不是直接点击打开),它甚至不会打开扩展名。我什至还没有到IE,所以这让我有点担心。mimemappingcsvapplication/vnd.ms-excel我已经尝试过text/csv、application/csv、application/binary、application/octet-strea

java - Jersey 休息和 csv 响应

我创建了一个rest调用,它使用Jersey以CSV文件响应。休息电话代码是:@GET@Path("/ReportWithoutADEStatus")@Produces({"application/ms-excel"})publicResponsegenerateQurterlyReport(){QuarterlyLabelReportquartLabelReport=newQuarterlyLabelReport();StringfileLoc=quartLabelReport.generateQurterlyLblRep(false);Filefile=newFile(fileLo

java - 使用 Spark 从 Azure Blob 读取数据

我在通过spark流从azureblob读取数据时遇到问题JavaDStreamlines=ssc.textFileStream("hdfs://ip:8020/directory");上面的代码适用于HDFS,但无法从Azureblob读取文件https://blobstorage.blob.core.windows.net/containerid/folder1/上面是azureUI中显示的路径,但这不起作用,我是否遗漏了什么,我们如何访问它。我知道Eventhub是流式数据的理想选择,但我目前的情况需要使用存储而不是队列 最佳答案

java - 使用 Java API 创建一个简单的 1 行 Spark DataFrame

在Scala中,我可以从内存中的字符串创建一个单行DataFrame,如下所示:valstringAsList=List("buzz")valdf=sqlContext.sparkContext.parallelize(jsonValues).toDF("fizz")df.show()当df.show()运行时,它输出:+-----+|fizz|+-----+|buzz|+-----+现在我正尝试从Java类中执行此操作。显然JavaRDD没有toDF(String)方法。我试过:ListstringAsList=newArrayList();stringAsList.add("buz