草庐IT

mongodb-spark

全部标签

xml - 在 MongoDB 中存储大型 XML

我有一个非常大的xml(>10mb大小和40多个元素)。目前我们将此类xml存储在Oracle数据库中,并使用xquery查询和检索部分xml。这个过程很慢并且需要很多数据库调用。我们正在探索mongodb来存储这个xml并查询它。我刚刚将xml转换为json并加载到一个mongo集合中,它在一瞬间存储了巨大的json数据。并将xml节点存储为嵌套文档。但是当我查询(使用查找)最里面的元素时,它总是返回整个文档,其中还包含具有不匹配元素值的节点。我希望只有少数节点与给定的节点值匹配。让我知道是否有任何最佳方法可以将如此大的xml文件存储在mongodb中。并且还让我知道如何检索具有查询

xml - 如何从 apache spark 框架读取 XML 文件?

我确实在这里遇到了使用spark进行数据预处理的迷你教程:http://ampcamp.berkeley.edu/big-data-mini-course/featurization.html然而,这只讨论文本文件解析。有没有办法从spark系统解析xml文件? 最佳答案 看起来有人为apache-spark制作了一个xml数据源。https://github.com/databricks/spark-xml这支持通过指定标签和推断类型来读取XML文件,例如importorg.apache.spark.sql.SQLContextv

php - 尝试在 Windows 上使用 MAMP 在 php 中安装 mongodb

我正在尝试使用MAMP3.0在php5.6.0中安装mongo。我已经正确下载了mongo库并将其添加到我的php.ini中。extension=php_mongo-1.5.7-5.6-vc11.dll当我从命令行运行php时,我收到以下信息(mongo有效):C:\MAMP\bin\php\php5.6.0>php-c..\..\..\conf\php5.6.0\php.ini-i|findstr/R/C:"mongo"mongomongo.allow_empty_keys=>0=>0mongo.chunk_size=>261120=>261120mongo.cmd=>$=>$mon

windows - Spark EC2 对 Windows 的支持

所有关于在AmazonEC2上部署Spark集群的文档都是与Linux环境相关的。但是,目前我的分布式项目依赖于一些Windows功能,我想开始使用Windows集群,同时进行必要的更改。p>我想知道是否有任何方法可以让我们以相对类似于spark-ec2脚本的方式在EC2上部署WindowsSpark集群由Spark提供。 最佳答案 spark-ec2目前仅支持使用specificLinuxAMIs在EC2中启动集群,因此目前无法使用该工具部署WindowsSpark集群。我怀疑spark-ec2是否会具备这种能力,因为它使用的所有

windows - 如何在mongodb中自动轮转日志?

我想在Windows操作系统的mongodb中每天自动轮换日志。可能吗?您有Powershell或其他建议吗?谢谢 最佳答案 使用以下命令useadmindb.runCommand({logRotate:1})确保在启动服务时指定了--logpath 关于windows-如何在mongodb中自动轮转日志?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/38888470/

windows - MongoDB "The default storage engine ' wiredTiger' 不适用于此版本的 mongod "+ "..no/data/db 文件夹..”

首先安装MongoDb并运行mongod命令后在C:\ProgramFiles\MongoDB\Server\3.2\bin>目录中,我收到错误:"Thedefaultstorageengine'wiredTiger'isnotavailablewiththisbuildofmongod"然后是第二个错误"..no/data/dbfolder..".运行windows1032位。编辑:我遇到了两个不同的问题,(如问题标题所述)我将它们结合起来解决了我的问题。我希望这可以作为其他新手的引用,如果他们在同一条船上。所以感谢大家的反对票:) 最佳答案

windows - 将 spark.local.dir 设置为不同的驱动器

我正在尝试在Windows10上设置独立的Spark。我想设置spark.local.dir至D:\spark-tmp\tmp,因为目前它似乎正在使用C:\Users\\AppData\Local\Temp,在我的例子中是在SSD驱动器上,考虑到某些数据集的大小,它可能没有足够的空间。所以我更改了文件%SPARK_HOME%\conf\spark-defaults.conf到以下,没有成功spark.eventLog.enabledtruespark.eventLog.dirfile:/D:/spark-tmp/logspark.local.dirfile:/D:/spark-tmp/

R Spark 一次从文件夹中读取一个文件,与 Shiny 集成

我在HDFS上有一个文件夹,其中包含10个CSV文件。每个CSV文件包含10000行和17列。目标响应式读取HDFS上的文件夹。如果文件夹中包含文件,则从文件夹中一次读取一个文件(从旧到新)。在Shiny中绘制一些参数。当新文件添加到文件夹或从文件夹中读取时更新绘图。状态目前,借助SparklyR,我能够一次响应式(Reactive)读取所有文件并生成包含100000个点的绘图(ggplot)。如果我在启动应用程序后添加第11个文件(包含10000行),绘图将更新为110000个点。library(sparklyr)conf=spark_config()conf$spark.drive

windows - Mongodb 文件分配器需要更多时间

当mongodb在数据目录下创建一个新文件时,它需要更多的时间来创建:Line376:ThuJan1518:01:49.407[FileAllocator]allocatingnewdatafile>\data\db\test.3,fillingwithzeroes...Line476:ThuJan1518:03:55.650[FileAllocator]doneallocatingdatafile>\data\db\test.3,size:512MB,took126.242secs由于该节点无法与mongodb连接后出现以下错误。{"error":"{err:'connectiont

windows - Spark 发射 : find version

我的环境是Windows7,安装了scala2.11.4(运行良好),Java1.8我已经尝试过spark-1.2.0-bin-hadoop2.4和spark-1.2.1-bin-hadoop2.4并且每次我都放bin\spark-shell.cmd我刚刚收到来自Windows的错误:find:'version':Nosuchfileordirectoryelsewasunexpectedatthistime.这里有什么我忽略的吗?非常感谢。更新:(来自spark-class2.cmd)C:\Users\spark-1.2.1-bin-hadoop2.4>for/F"tokens=3"