草庐IT

spark-csv

全部标签

python - MongoDB Spark 连接器 py4j.protocol.Py4JJavaError : An error occurred while calling o50. 加载

我以前能够加载这个MongoDB数据库,但现在收到一个我无法弄清楚的错误。以下是我如何开始我的Sparksession:spark=SparkSession.builder\.master("local[*]")\.appName("collab_rec")\.config("spark.mongodb.input.uri","mongodb://127.0.0.1/example.collection")\.config("spark.mongodb.output.uri","mongodb://127.0.0.1/example.collection")\.getOrCreate(

node.js - 使用 NodeJS 从 CSV 填充 MongoDB

我正在尝试使用CSV文件中的数据填充我的MongoDB。我的MongoDB中目前没有数据库或集合,我想使用更新函数创建这些数据库或集合,该函数创建从csv文件解析的对象。我正在使用ya-csv来解析我的csv文件和Node的mongodb驱动程序。我的代码是这样的:varcsv=require('ya-csv');varfs=require('fs');varMongoClient=require('mongodb').MongoClient;varServer=require('mongodb').Server;varmongoclient=newMongoClient(newSer

mongodb - 使用 ISODate 导入 CSV 文件 MongoDB

当我从mongoDB导出数据时,我获得了以下文件:除日期为ISODate外,在mongoDB中一切都是字符串。123@123.com,sha1:64000:18:BTJnM903gIt5FNlSsZIRx1tLC9ErPJuB:9YVs800sgRPr1aaLj73qqnJ6,123,123,123@123.com,2017-04-28T09:20:07.480Z,cus_AYcVXIUf68nT52如果我将此文件导入MongoDB,它会将每个值导入为字符串值。我需要将日期解析为Date格式,其余可以是字符串。我看到有一个参数用于MongoImport--columnsHaveType

使用Apache Spark与Scala在两个蜂巢柱之间进行模糊比较

我正在阅读来自2个蜂巢表的数据。令牌表具有需要与输入数据匹配的令牌。输入数据将具有描述列以及其他列。我需要拆分输入数据,并需要将每个分裂元素与令牌表中的所有元素进行比较。目前,我正在使用me.xdrop.fuzzywuzzy.fuzzysearch库进行模糊匹配。以下是我的代码段-valtokens=sqlContext.sql("selecttokenfromtokens")valdesc=sqlContext.sql("selectdescriptionfromdesceriptiontable")valdesc_tokens=desc.flatMap(_.toString().split

如何使用Apache Spark Java中的Hadoop Office库将数据集写入Excel文件

目前我正在使用com.crealytics.spark.excel要读取Excel文件,但是使用此库,我无法将数据集写入Excel文件。这个关联说使用HadoopOffice库(org.zuinnote.spark.office.excel)我们可以读写到Excel文件请帮助我将数据集对象写入SparkJava中的Excel文件。看答案您可以使用org.zuinnote.spark.office.excel用于读取和编写数据集的Excel文件。给出示例https://github.com/zuinnote/spark-hadoopoffice-ds/。但是,如果您在数据集中阅读Excel并尝试

shell - 创建一个 shell 脚本以在 mongodb 中自动导出 csv

我们有mongo数据库,其中有一个集合列表,我想使用mongoexport工具将其导出到csv。我需要经常这样做,并且有时集合的名称会更改。所以我想做的是创建一个我可以运行的shell脚本,它将遍历mongo数据库中的集合并创建csv文件。现在我有一个脚本,但它不是自动的,例如我在脚本中有以下内容。mongoexport-dmydbname-cmycollname.asdno3rnknlasfkn.collection--csv-ffield1,field2,field3,field4-omycollname.asdno3rnknlasfkn.collection.csv除csv文件名

MongoDB - 将 CSV 导入嵌套文档

我有一个架构,其文档结构如下所示:{"_id":ObjectId("4f8dcb06ee21783d7400003c"),"venue":ObjectId("4f8dcb06ee21783d7400003b"),"name":"Someevent","webite:"www.whatever.com","attendees":[{"_id":ObjectId("4f8dfb06ee21783d7134503a"),"firstName":"Joe","lastName":"Blogs","emailAddress":"some@thing1.com"},{"_id":ObjectId(

python - 使用python将数据从mongodb导出到csv

我在使用python脚本导出到csv时遇到问题。一些数组数据需要从Mongodb导出到CSV,但是下面的脚本没有正确导出,因为三个子字段数据被转储到一个列中。我想将答案字段下的三个字段(顺序、文本、answerid)分成CSV中的三个不同列。Mongodb示例:"answers":[{"order":0,"text":{"en":"Yes"},"answerId":"527d65de7563dd0fb98fa28c"},{"order":1,"text":{"en":"No"},"answerId":"527d65de7563dd0fb98fa28b"}]python脚本:import

xml - 将 json 文件转换为 xml 或 csv,以便在 OppenOffice/MS Excel 中打开

是否有任何工具可以将json文件转换为可以在OpenOffice或Excel中打开的xml或csv文件。我正在开发一个Web应用程序并使用MongoDB作为后端。已经从MongoDB导出了json格式的数据,需要将数据转换成某种电子表格软件可以打开的格式。我需要将这些数据提供给客户,并在移交之前对其进行切片和切block和装饰。我计划实现一项功能,以.csv和.xls格式导出所需的数据,但现在需要一个快速的脏解决方案。前段时间我也不得不做同样的事情并找到了一些东西(一个简单的脚本)来拯救我的一天。无法再次找到脚本,非常感谢任何帮助。更新:仍在寻找解决方案,并试图组装一个可以解决问题的快

MongoDB 批量 csv 导入(充满 csv 的文件夹)

我尝试使用mongoimport在mongodb中导入单个csv文件,使用mongoimport-dmydb-cthings--typecsv--filelocations.csv--headerline。它就像一个魅力。我的问题是我想在mongodb中导入一个充满csv的文件夹。我搜索了,但找不到任何东西。我还尝试使用通配符(*)提供文件夹路径,但它不接受。示例路径是/home/user/event_files/*,其中event_files是包含csv文件的文件夹。如何在mongodb中导入一个充满csv的文件夹?谢谢你,莫辛编辑:#!bin/bashFILES="/root/ev