spark-hive

xml - 在 apache spark scala 中处理带有 xml 列的文本文件

我有这样一个文件:1,MessiDon'tforgetmethisweekend!2,RonaldoDon'tforgetLaliga3,NeymarIamthebest4,SuarezDon'tforgetmethisweekend!其中第一个字段是id，第二个字段是数据。我需要将它加载到一个RDD，解析xml字符串并提取字段，然后像这样创建另一个RDD:1,Messi,Don'tforgetmethisweekend!2,Ronaldo,Don'tforgetLaliga3,Neymar,Iamthebest4,Suarez,Don'tforgetmethisweekend!由于实

xml 本文 gt lt from scala apache-spark

xml - 解析 XML 并存储在 Hive 表中

我正在使用XPath通过pig解析XML，但在我的用例中我必须解析整个xml文件并将其移动到hive表。我正在考虑使用XPath来解析XML文件，而不是使用pig将解析后的数据移动到配置单元表。但是有没有其他方法可以做到这一点？最佳答案我们可以使用hivexmlserde在Hive中解析XML文件。使用hivexmlserde创建一个外部Hive表，并将所有xml文件放在该xml位置(所有xml文件应该相似)。使用此serde，您需要在创建表语句和要获取的属性的XPath中定义开始和结束标记。请看下面的例子。addjar/hom

并存 Hive strong hivexmlserde section xml xpath apache-pig

xml - 如何使用 scala 中的 spark xml 解析器解析 XML 中的字符串？

我尝试做的是使用XML解析器解析字符串。我只找到这种在scala中使用Spark进行解析的方法:valdf=sqlContext.read.format("com.databricks.spark.xml").option("rowTag","book").load("books.xml")我需要解析的是一个字符串，而不是一个文件那么，是否有加载字符串(而不是文件路径)的选项？谢谢! 最佳答案从下面的字符串创建一个RDD，valxmlStringRDD=sc.parallelize(List("Yourxmlstring"))然后

xml scala section code spark apache-spark

xml - 在 Spark 2.1.0 中读取大文件时出现内存不足错误

我想使用spark将一个大的(51GB)XML文件(在外部硬盘上)读入数据帧(使用spark-xmlplugin)，进行简单的映射/过滤，重新排序，然后将其写回磁盘，如CSV文件。但无论我如何调整它，我总是得到一个java.lang.OutOfMemoryError:Javaheapspace。我想了解为什么增加分区数不能阻止OOM错误它不应该将任务拆分成更多的部分，以便每个单独的部分更小并且不会导致内存问题吗？(Sparkcan'tpossiblybetryingtostuffeverythinginmemoryandcrashingifitdoesn'tfit,right??)我尝

时出大文 34 spark code xml scala apache-spark apache-spark-2.0 apache-spark-xml

xml - 如何从 apache spark 框架读取 XML 文件？

我确实在这里遇到了使用spark进行数据预处理的迷你教程:http://ampcamp.berkeley.edu/big-data-mini-course/featurization.html然而，这只讨论文本文件解析。有没有办法从spark系统解析xml文件？最佳答案看起来有人为apache-spark制作了一个xml数据源。https://github.com/databricks/spark-xml这支持通过指定标签和推断类型来读取XML文件，例如importorg.apache.spark.sql.SQLContextv

apache spark section databricks xml apache-spark

HIVE表 DML 操作——第3关：将 select 查询结果插入 hive 表中

第3关：将select查询结果插入hive表中任务描述本关任务：根据编程要求将select查询结果插入hive表中。相关知识为了完成本关任务，你需要掌握：1.单表插入，2.多表插入。通过使用查询子句从其他表中获得查询结果，然后使用INSERT命令把数据插入到Hive新表中（Hive会根据MapReduce中的reduce任务个数在HDFS上的hive新表目录下创建相应的数据文件000000_0，若有多个reduce任务，依次以000001_0、000002_0、……类推）。该操作包括表单插入（一次性向一个hive表插入数据）和多表插入（一次性向多个hive表插入数据）。INSERT命令可以操作

mdash select code student 34 hive hadoop 大数据

windows - Spark EC2 对 Windows 的支持

所有关于在AmazonEC2上部署Spark集群的文档都是与Linux环境相关的。但是，目前我的分布式项目依赖于一些Windows功能，我想开始使用Windows集群，同时进行必要的更改。p>我想知道是否有任何方法可以让我们以相对类似于spark-ec2脚本的方式在EC2上部署WindowsSpark集群由Spark提供。最佳答案 spark-ec2目前仅支持使用specificLinuxAMIs在EC2中启动集群，因此目前无法使用该工具部署WindowsSpark集群。我怀疑spark-ec2是否会具备这种能力，因为它使用的所有

windows section Spark amazon-ec2 cluster-computing apache-spark

windows - 将 spark.local.dir 设置为不同的驱动器

我正在尝试在Windows10上设置独立的Spark。我想设置spark.local.dir至D:\spark-tmp\tmp，因为目前它似乎正在使用C:\Users\\AppData\Local\Temp，在我的例子中是在SSD驱动器上，考虑到某些数据集的大小，它可能没有足够的空间。所以我更改了文件%SPARK_HOME%\conf\spark-defaults.conf到以下，没有成功spark.eventLog.enabledtruespark.eventLog.dirfile:/D:/spark-tmp/logspark.local.dirfile:/D:/spark-tmp/

windows 驱动 code spark spark-tmp apache-spark

R Spark 一次从文件夹中读取一个文件，与 Shiny 集成

我在HDFS上有一个文件夹，其中包含10个CSV文件。每个CSV文件包含10000行和17列。目标响应式读取HDFS上的文件夹。如果文件夹中包含文件，则从文件夹中一次读取一个文件(从旧到新)。在Shiny中绘制一些参数。当新文件添加到文件夹或从文件夹中读取时更新绘图。状态目前，借助SparklyR，我能够一次响应式(Reactive)读取所有文件并生成包含100000个点的绘图(ggplot)。如果我在启动应用程序后添加第11个文件(包含10000行)，绘图将更新为110000个点。library(sparklyr)conf=spark_config()conf$spark.drive

Spark Shiny section strong English_United r windows apache-spark sparklyr

windows - Spark 发射 : find version

我的环境是Windows7，安装了scala2.11.4(运行良好)，Java1.8我已经尝试过spark-1.2.0-bin-hadoop2.4和spark-1.2.1-bin-hadoop2.4并且每次我都放bin\spark-shell.cmd我刚刚收到来自Windows的错误:find:'version':Nosuchfileordirectoryelsewasunexpectedatthistime.这里有什么我忽略的吗？非常感谢。更新:(来自spark-class2.cmd)C:\Users\spark-1.2.1-bin-hadoop2.4>for/F"tokens=3"

windows version code section scala apache-spark

1 234 5 6