草庐IT

spark-infotheoretic-feature-selec

全部标签

xml - 如何从 apache spark 框架读取 XML 文件?

我确实在这里遇到了使用spark进行数据预处理的迷你教程:http://ampcamp.berkeley.edu/big-data-mini-course/featurization.html然而,这只讨论文本文件解析。有没有办法从spark系统解析xml文件? 最佳答案 看起来有人为apache-spark制作了一个xml数据源。https://github.com/databricks/spark-xml这支持通过指定标签和推断类型来读取XML文件,例如importorg.apache.spark.sql.SQLContextv

xml - org.xml.sax.SAXNotRecognizedException : Feature 'http://javax.xml.XMLConstants/feature/secure-processing' is not recognized 问题

您好,在我们的项目中,我们正在使用XJCant任务生成xsd2schema,之后我们正在编译src文件并将它们分组到一个模式jar中。我们拥有的类路径是:jaxb-ri-2.2.6-jaxb-impl.jar,jaxb-api.jar,jaxb-xjc.jar这个ant任务在eclipse中工作正常并且jar已创建,但它在unix环境中抛出错误。错误是:java.lang.IllegalStateException:org.xml.sax.SAXNotRecognizedException:Feature'http://javax.xml.XMLConstants/feature/se

windows - 如何卸载 "program and features"中的程序?

同时通过控制面板卸载一个msi包。在任务栏中,我注意到带有commandLine\x的msiexec.exe没有被调用,但msi包仍然被卸载。在存储该特定软件的注册表中,他们提供了卸载字符串,其中给出了类似这样的内容“MsiExec.exe/X{2012098D-EEE9-4769-8DD3-B038050854D4}”。所以还有其他方法可以在不调用Msiexec.exe的情况下卸载软件??如果确实如此,那又如何呢??有人可以启发我吗 最佳答案 对于WindowsInstaller产品,不使用注册表中的UninstallString

windows - Spark EC2 对 Windows 的支持

所有关于在AmazonEC2上部署Spark集群的文档都是与Linux环境相关的。但是,目前我的分布式项目依赖于一些Windows功能,我想开始使用Windows集群,同时进行必要的更改。p>我想知道是否有任何方法可以让我们以相对类似于spark-ec2脚本的方式在EC2上部署WindowsSpark集群由Spark提供。 最佳答案 spark-ec2目前仅支持使用specificLinuxAMIs在EC2中启动集群,因此目前无法使用该工具部署WindowsSpark集群。我怀疑spark-ec2是否会具备这种能力,因为它使用的所有

windows - 将 spark.local.dir 设置为不同的驱动器

我正在尝试在Windows10上设置独立的Spark。我想设置spark.local.dir至D:\spark-tmp\tmp,因为目前它似乎正在使用C:\Users\\AppData\Local\Temp,在我的例子中是在SSD驱动器上,考虑到某些数据集的大小,它可能没有足够的空间。所以我更改了文件%SPARK_HOME%\conf\spark-defaults.conf到以下,没有成功spark.eventLog.enabledtruespark.eventLog.dirfile:/D:/spark-tmp/logspark.local.dirfile:/D:/spark-tmp/

R Spark 一次从文件夹中读取一个文件,与 Shiny 集成

我在HDFS上有一个文件夹,其中包含10个CSV文件。每个CSV文件包含10000行和17列。目标响应式读取HDFS上的文件夹。如果文件夹中包含文件,则从文件夹中一次读取一个文件(从旧到新)。在Shiny中绘制一些参数。当新文件添加到文件夹或从文件夹中读取时更新绘图。状态目前,借助SparklyR,我能够一次响应式(Reactive)读取所有文件并生成包含100000个点的绘图(ggplot)。如果我在启动应用程序后添加第11个文件(包含10000行),绘图将更新为110000个点。library(sparklyr)conf=spark_config()conf$spark.drive

windows - Spark 发射 : find version

我的环境是Windows7,安装了scala2.11.4(运行良好),Java1.8我已经尝试过spark-1.2.0-bin-hadoop2.4和spark-1.2.1-bin-hadoop2.4并且每次我都放bin\spark-shell.cmd我刚刚收到来自Windows的错误:find:'version':Nosuchfileordirectoryelsewasunexpectedatthistime.这里有什么我忽略的吗?非常感谢。更新:(来自spark-class2.cmd)C:\Users\spark-1.2.1-bin-hadoop2.4>for/F"tokens=3"

windows - 如何在 Windows 10 上逐步设置 Spark

我尝试在Windows10上设置spark,在堆栈溢出方面发现了很多好的解决方案。因此,我正在尝试结合所有解决方案并创建标准化的安装步骤 最佳答案 安装前需要下载以下内容:JAVAJDK-http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.htmlSBT和Scala-https://www.scala-lang.org/download/Winutils.exe-https://github.com/steveloughran/

windows - 如何在 Windows 上访问 Spark 中的本地文件?

我在Windows上使用Spark。我知道在*nix中,访问本地文件代码是这样的:valtextFile=sc.textFile("file:///usr/local/spark/README.md")但是如何在Windows上访问本地文件?我尝试了以下方法:vallogFile="C:\spark-1.3.1-bin-hadoop2.4\README.md"vallogFile="file\\C:\spark-1.3.1-bin-hadoop2.4\README.md"但都行不通。 最佳答案 不幸的是,在Windows中你必须转义

php - 在 Windows 上安装 codeigniter sparks 管理器

已解决,请阅读帖子底部:我正在尝试按照officialinstructions在Windows上安装Sparks包管理器.发出此命令:php-r"$(curl-fsSLhttp://getsparks.org/go-sparks)"导致此错误消息:Parseerror:syntaxerror,unexpected':'inCommandlinecodeonline1如果我只在上述行中执行curl命令,即:curl-fsSLhttp://getsparks.org/go-sparks它回显位于URL上的php脚本。所以我认为问题是将curl输出管道传输到PHP以某种方式失败。我尝试了几种