草庐IT

Spark优化

全部标签

xml - 在 Spark 2.1.0 中读取大文件时出现内存不足错误

我想使用spark将一个大的(51GB)XML文件(在外部硬盘上)读入数据帧(使用spark-xmlplugin),进行简单的映射/过滤,重新排序,然后将其写回磁盘,如CSV文件。但无论我如何调整它,我总是得到一个java.lang.OutOfMemoryError:Javaheapspace。我想了解为什么增加分区数不能阻止OOM错误它不应该将任务拆分成更多的部分,以便每个单独的部分更小并且不会导致内存问题吗?(Sparkcan'tpossiblybetryingtostuffeverythinginmemoryandcrashingifitdoesn'tfit,right??)我尝

c# - 在 C# 中优化 XML

背景我们有一个从.NET1.1开始的项目,转移到.NET2.0,最近又转移到.NET3.5。该项目是高度数据驱动的,并且将XML用于其许多数据文件。其中一些XML文件非常大,我想借此机会改进应用程序与它们的交互。如果可能的话,我想避免必须始终将它们完全保存在内存中,但另一方面,我想快速访问它们的数据。当前设置使用XmlDocument和XPathDocument(取决于它是什么时候写的,由谁写的)。首次请求时会查找数据并将其缓存在内部数据结构中(而不是XML,后者在大多数情况下会占用更多内存)。在过去,这是一个很好的模型,因为它具有快速访问时间和低内存占用(或者至少,令人满意的内存占用

javascript - 优化 Javascript 中的函数

我是javascript的新手,但已经设法编写了一个有效的xml函数:)我希望有人能告诉我如何优化该功能。目前每个州的天气都有不同的功能,但我希望我能以某种方式简化它。代码粘贴在这里:http://pastie.org/private/ffuvwgbeenhyo07vqkkcsw非常感谢任何帮助。谢谢!编辑:添加两个XML提要的代码示例:函数1(紫外线):http://pastie.org/private/jc9oxkexypn0cw5yaskiq函数2(天气):http://pastie.org/private/pnckz4k4yabgvtdbsjvvrq

javascript - 优化 JavaScript 中的 JSON 查询性能

我有一个10MB的JSON文件,结构如下(10k个条目):{entry_1:{description:"...",offset:"...",value:"...",fields:{field_1:{offset:"...",description:"...",},field_2:{offset:"...",description:"...",}}},entry_2:.........我想实现一个自动完成输入字段,该字段将在搜索多个属性时尽快从该文件中获取建议。例如,查找所有包含某些子字符串的条目名称、字段名称和描述。方法一:我试图将嵌套展平为一个字符串数组:"entry_1|descr

xml - 优化 Haskell XML 解析器

我目前正在尝试使用Haskell,并且非常享受这种体验,但我正在针对具有一些相当严格的性能要求的真实项目对其进行评估。我的任务的第一步是处理维基百科的完整(无历史)转储(bzipped)——总共压缩了大约6Gb。在python中,对每个原始页面(总共约1000万)进行完整提取的脚本在我的盒子上需要大约30分钟(作为引用,使用pull解析器的scala实现需要大约40分钟)。我一直在尝试使用Haskell和ghc复制这种性能,并且一直在努力匹配它。我一直在使用Codec.Compression.BZip进行解压缩,并使用hexpat进行解析。我使用惰性字节串作为元素文本类型的hexpat

xml - 如何从 apache spark 框架读取 XML 文件?

我确实在这里遇到了使用spark进行数据预处理的迷你教程:http://ampcamp.berkeley.edu/big-data-mini-course/featurization.html然而,这只讨论文本文件解析。有没有办法从spark系统解析xml文件? 最佳答案 看起来有人为apache-spark制作了一个xml数据源。https://github.com/databricks/spark-xml这支持通过指定标签和推断类型来读取XML文件,例如importorg.apache.spark.sql.SQLContextv

高性能计算实验——矩阵乘法基于MPI的并行实现及优化

高性能计算实验——矩阵乘法基于MPI的并行实现及优化1.实验目的1.1.通过MPI实现通用矩阵乘法1.2.基于MPI的通用矩阵乘法优化1.3.改造实验1成矩阵乘法库函数2.实验过程和核心代码2.1.通过MPI实现通用矩阵乘法2.2.通用矩阵乘法优化2.3.改造实验1成矩阵乘法库函数3.实验结果3.1.通过MPI实现通用矩阵乘法3.2.基于MPI的通用矩阵乘法优化3.3.改造实验1成矩阵乘法库函数4.实验感想1.实验目的1.1.通过MPI实现通用矩阵乘法熟练掌握MPI编程方法,并将通用矩阵乘法转为MPI并行实现,进一步加深MPI的使用与理解。1.2.基于MPI的通用矩阵乘法优化进一步熟悉MPI矩

windows - Spark EC2 对 Windows 的支持

所有关于在AmazonEC2上部署Spark集群的文档都是与Linux环境相关的。但是,目前我的分布式项目依赖于一些Windows功能,我想开始使用Windows集群,同时进行必要的更改。p>我想知道是否有任何方法可以让我们以相对类似于spark-ec2脚本的方式在EC2上部署WindowsSpark集群由Spark提供。 最佳答案 spark-ec2目前仅支持使用specificLinuxAMIs在EC2中启动集群,因此目前无法使用该工具部署WindowsSpark集群。我怀疑spark-ec2是否会具备这种能力,因为它使用的所有

windows - 将 spark.local.dir 设置为不同的驱动器

我正在尝试在Windows10上设置独立的Spark。我想设置spark.local.dir至D:\spark-tmp\tmp,因为目前它似乎正在使用C:\Users\\AppData\Local\Temp,在我的例子中是在SSD驱动器上,考虑到某些数据集的大小,它可能没有足够的空间。所以我更改了文件%SPARK_HOME%\conf\spark-defaults.conf到以下,没有成功spark.eventLog.enabledtruespark.eventLog.dirfile:/D:/spark-tmp/logspark.local.dirfile:/D:/spark-tmp/

R Spark 一次从文件夹中读取一个文件,与 Shiny 集成

我在HDFS上有一个文件夹,其中包含10个CSV文件。每个CSV文件包含10000行和17列。目标响应式读取HDFS上的文件夹。如果文件夹中包含文件,则从文件夹中一次读取一个文件(从旧到新)。在Shiny中绘制一些参数。当新文件添加到文件夹或从文件夹中读取时更新绘图。状态目前,借助SparklyR,我能够一次响应式(Reactive)读取所有文件并生成包含100000个点的绘图(ggplot)。如果我在启动应用程序后添加第11个文件(包含10000行),绘图将更新为110000个点。library(sparklyr)conf=spark_config()conf$spark.drive