草庐IT

SPARK_DIST_CLASSPATH

全部标签

xml - 如何使用 scala 中的 spark xml 解析器解析 XML 中的字符串?

我尝试做的是使用XML解析器解析字符串。我只找到这种在scala中使用Spark进行解析的方法:valdf=sqlContext.read.format("com.databricks.spark.xml").option("rowTag","book").load("books.xml")我需要解析的是一个字符串,而不是一个文件那么,是否有加载字符串(而不是文件路径)的选项?谢谢! 最佳答案 从下面的字符串创建一个RDD,valxmlStringRDD=sc.parallelize(List("Yourxmlstring"))然后

java - 我如何从 CLASSPATH 中引用 XSD 来验证我的 XML?

作为我的XML转换(使用XSL)的一部分,我正在为模式位置创建一个属性,以便可以验证转换的结果。但是,当我试图将其作为独立测试运行时,我希望能够为模式位置设置适当的属性/值,使其脱离我的CLASSPATH。经过一些谷歌搜索后,我尝试了各种schemaLocation属性,最新的尝试是:....转换后的结果是:..我仔细检查过validator运行时我的emrException_1_0.xsd文件是否在CLASSPATH中。这是一个DOMvalidator,我使用的是Xerces2.9.1/Xalan2.7.1,我得到的结果是:Causedby:org.xml.sax.SAXParseE

xml - 错误 : No persistence units parsed from {classpath*:META-INF/persistence. xml}

我试图让Spring和Hibernate在没有persistence.xml的情况下工作。我正在我的context.xml文件上设置我的实体包扫描器,如下所示:我错过了什么?我不断收到错误:Nopersistenceunitsparsedfrom{classpath*:META-INF/persistence.xml} 最佳答案 理想情况下,packagesToScan应该可以工作。例如-如果没有,那么您可以尝试这样的操作。(根据文档,这是默认路径)...之后你应该在META-INF中添加persistence.xml(在src/m

java - 为什么要在classpath后面写 "*"

为什么classpath后面要写“*”这是一个例子 最佳答案 这是一个正则表达式模式(特别适用于spring),表示匹配位置路径的其余部分。在您的案例中,匹配类路径的META-INF/spring文件夹中的所有config.xml文件。这里是Spring引用,它以更好的方式更好地解释了它4.7.2Wildcardsinapplicationcontextconstructorresourcepaths应用程序上下文构造函数值中的资源路径可以是一个简单的路径(如上所示),它具有到目标资源的一对一映射,或者可以包含特殊的“classpa

xml - 在 Spark 2.1.0 中读取大文件时出现内存不足错误

我想使用spark将一个大的(51GB)XML文件(在外部硬盘上)读入数据帧(使用spark-xmlplugin),进行简单的映射/过滤,重新排序,然后将其写回磁盘,如CSV文件。但无论我如何调整它,我总是得到一个java.lang.OutOfMemoryError:Javaheapspace。我想了解为什么增加分区数不能阻止OOM错误它不应该将任务拆分成更多的部分,以便每个单独的部分更小并且不会导致内存问题吗?(Sparkcan'tpossiblybetryingtostuffeverythinginmemoryandcrashingifitdoesn'tfit,right??)我尝

java - 如果 Saxon 在 CLASSPATH 上,命名空间未知的 XPath 表达式失败

我有以下示例XML文件:使用XPath表达式/foo:a/foo:b('foo'在NamespaceContext)我可以正确计算b节点的数量,当Saxon-HE-9.4.jar在CLASSPATH上和不在CLASSPATH上时,代码都有效。但是,当我使用namespace解析同一个文件时-不知道DocumentBuilderFactory,XPath表达式“/a/b”正确计算了的数量b节点仅当Saxon-HE-9.4.jar不在CLASSPATH上时。代码如下:importjava.io.*;importjava.util.*;importjavax.xml.xpath.*;impo

xml - 如何从 apache spark 框架读取 XML 文件?

我确实在这里遇到了使用spark进行数据预处理的迷你教程:http://ampcamp.berkeley.edu/big-data-mini-course/featurization.html然而,这只讨论文本文件解析。有没有办法从spark系统解析xml文件? 最佳答案 看起来有人为apache-spark制作了一个xml数据源。https://github.com/databricks/spark-xml这支持通过指定标签和推断类型来读取XML文件,例如importorg.apache.spark.sql.SQLContextv

windows - Spark EC2 对 Windows 的支持

所有关于在AmazonEC2上部署Spark集群的文档都是与Linux环境相关的。但是,目前我的分布式项目依赖于一些Windows功能,我想开始使用Windows集群,同时进行必要的更改。p>我想知道是否有任何方法可以让我们以相对类似于spark-ec2脚本的方式在EC2上部署WindowsSpark集群由Spark提供。 最佳答案 spark-ec2目前仅支持使用specificLinuxAMIs在EC2中启动集群,因此目前无法使用该工具部署WindowsSpark集群。我怀疑spark-ec2是否会具备这种能力,因为它使用的所有

windows - 将 spark.local.dir 设置为不同的驱动器

我正在尝试在Windows10上设置独立的Spark。我想设置spark.local.dir至D:\spark-tmp\tmp,因为目前它似乎正在使用C:\Users\\AppData\Local\Temp,在我的例子中是在SSD驱动器上,考虑到某些数据集的大小,它可能没有足够的空间。所以我更改了文件%SPARK_HOME%\conf\spark-defaults.conf到以下,没有成功spark.eventLog.enabledtruespark.eventLog.dirfile:/D:/spark-tmp/logspark.local.dirfile:/D:/spark-tmp/

R Spark 一次从文件夹中读取一个文件,与 Shiny 集成

我在HDFS上有一个文件夹,其中包含10个CSV文件。每个CSV文件包含10000行和17列。目标响应式读取HDFS上的文件夹。如果文件夹中包含文件,则从文件夹中一次读取一个文件(从旧到新)。在Shiny中绘制一些参数。当新文件添加到文件夹或从文件夹中读取时更新绘图。状态目前,借助SparklyR,我能够一次响应式(Reactive)读取所有文件并生成包含100000个点的绘图(ggplot)。如果我在启动应用程序后添加第11个文件(包含10000行),绘图将更新为110000个点。library(sparklyr)conf=spark_config()conf$spark.drive