spark_apply

xml - 在 apache spark scala 中处理带有 xml 列的文本文件

我有这样一个文件:1,MessiDon'tforgetmethisweekend!2,RonaldoDon'tforgetLaliga3,NeymarIamthebest4,SuarezDon'tforgetmethisweekend!其中第一个字段是id，第二个字段是数据。我需要将它加载到一个RDD，解析xml字符串并提取字段，然后像这样创建另一个RDD:1,Messi,Don'tforgetmethisweekend!2,Ronaldo,Don'tforgetLaliga3,Neymar,Iamthebest4,Suarez,Don'tforgetmethisweekend!由于实

xml 本文 gt lt from scala apache-spark

xml - 如何使用 scala 中的 spark xml 解析器解析 XML 中的字符串？

我尝试做的是使用XML解析器解析字符串。我只找到这种在scala中使用Spark进行解析的方法:valdf=sqlContext.read.format("com.databricks.spark.xml").option("rowTag","book").load("books.xml")我需要解析的是一个字符串，而不是一个文件那么，是否有加载字符串(而不是文件路径)的选项？谢谢! 最佳答案从下面的字符串创建一个RDD，valxmlStringRDD=sc.parallelize(List("Yourxmlstring"))然后

xml scala section code spark apache-spark

xml - xslt : How can I apply two templates to the same node during processing?

我有一个XSL模板，可以匹配任何带有的元素child:thenwehavetoputthestuffinsideitinsideit-->它连接了attr将var元素的s放入editableparent的属性；和ok进入constraint然后我有一个匹配任何的模板元素:true这只是将其转换为如果该字段有一个名称，则使用与该字段相同的名称，否则为“true”。我遇到的问题是，*[var]如果字段具有，则匹配该字段作为一个child。但我想要发生的是*[var]匹配首先，然后是field匹配以及，但之后。目前，输入为Text我明白了Text但是我想要Text我在SO上找到了一些关于进行

processing templates code xsl lt xml xslt-2.0

xml - 在 Spark 2.1.0 中读取大文件时出现内存不足错误

我想使用spark将一个大的(51GB)XML文件(在外部硬盘上)读入数据帧(使用spark-xmlplugin)，进行简单的映射/过滤，重新排序，然后将其写回磁盘，如CSV文件。但无论我如何调整它，我总是得到一个java.lang.OutOfMemoryError:Javaheapspace。我想了解为什么增加分区数不能阻止OOM错误它不应该将任务拆分成更多的部分，以便每个单独的部分更小并且不会导致内存问题吗？(Sparkcan'tpossiblybetryingtostuffeverythinginmemoryandcrashingifitdoesn'tfit,right??)我尝

时出大文 34 spark code xml scala apache-spark apache-spark-2.0 apache-spark-xml

xml - <xsl :apply-template> and <xsl:call-template>? 之间的区别

你能解释一下之间的区别吗？和我应该什么时候使用?谢谢最佳答案在最基本的层面上，您使用当你想让处理器自动处理节点时，你使用当您想要更好地控制处理时。所以如果你有:WorldHello并且您有以下XSLT:您将得到结果WorldHello.本质上，您已经说过“以这种方式处理bar和boo”，然后让XSLT处理器在遇到这些节点时对其进行处理。在大多数情况下，这就是您在XSLT中应该做的事情。不过，有时您想做一些更奇特的事情。在这种情况下，您可以创建一个不匹配任何特定节点的特殊模板。例如:然后您可以在处理时调用此模板而不是自动处理foo

amp template code xsl xml xslt

xml - 使用 XSLT Apply-Templates 有条件地选择节点

假设我有一个这样的xml文档:NutcrackerTomCruiseNutcrackerRobinWilliamsGrinchStoleChristmasWillSmithGrinchStoleChristmasMelGibson现在我希望能够选择威尔史密斯作为Actor的所有戏剧并将其重新格式化为如下内容:WillSmithMelGibson我只想使用apply-templates..没有xsl:if或foreach循环(我设计了这个示例作为我正在做的事情的更简单版本，这样你可以帮助我理解如何在匹配中使用xpath声明)这是我目前所拥有的:基本上我只是不确定如何在模板的匹配属性中使用

Apply-Templates Templates gt lt play xml xslt xpath

xml - <xsl :apply-templates/> and <xsl:apply-templates select ="."/> 有什么区别

之间有什么区别？和.我认为select="."没有必要，但根据我使用的不同，我得到了不同的结果。抱歉，如果这是重复的。我曾尝试搜索此问题，但找不到任何内容。最佳答案 Whatisthedifferencebetweenand第一条指令:是的简写:第二条指令:是以下内容的简写:我们看到，不仅这两个指令不同(前者对所有子节点应用模板，后者对当前节点应用模板)，但后者是危险的并且经常会导致死循环! 关于xml-and有什么区别，我们在StackOverflow上找到一个类似的问题：

amp apply-templates strong code xml xslt xpath

xml - 如何从 apache spark 框架读取 XML 文件？

我确实在这里遇到了使用spark进行数据预处理的迷你教程:http://ampcamp.berkeley.edu/big-data-mini-course/featurization.html然而，这只讨论文本文件解析。有没有办法从spark系统解析xml文件？最佳答案看起来有人为apache-spark制作了一个xml数据源。https://github.com/databricks/spark-xml这支持通过指定标签和推断类型来读取XML文件，例如importorg.apache.spark.sql.SQLContextv

apache spark section databricks xml apache-spark

windows - Spark EC2 对 Windows 的支持

所有关于在AmazonEC2上部署Spark集群的文档都是与Linux环境相关的。但是，目前我的分布式项目依赖于一些Windows功能，我想开始使用Windows集群，同时进行必要的更改。p>我想知道是否有任何方法可以让我们以相对类似于spark-ec2脚本的方式在EC2上部署WindowsSpark集群由Spark提供。最佳答案 spark-ec2目前仅支持使用specificLinuxAMIs在EC2中启动集群，因此目前无法使用该工具部署WindowsSpark集群。我怀疑spark-ec2是否会具备这种能力，因为它使用的所有

windows section Spark amazon-ec2 cluster-computing apache-spark

windows - 将 spark.local.dir 设置为不同的驱动器

我正在尝试在Windows10上设置独立的Spark。我想设置spark.local.dir至D:\spark-tmp\tmp，因为目前它似乎正在使用C:\Users\\AppData\Local\Temp，在我的例子中是在SSD驱动器上，考虑到某些数据集的大小，它可能没有足够的空间。所以我更改了文件%SPARK_HOME%\conf\spark-defaults.conf到以下，没有成功spark.eventLog.enabledtruespark.eventLog.dirfile:/D:/spark-tmp/logspark.local.dirfile:/D:/spark-tmp/

windows 驱动 code spark spark-tmp apache-spark

5 6 789 10 11