草庐IT

pyspark-mongodb

全部标签

python - Pyspark 将数据写入配置单元

下面是我将数据写入Hive的代码frompysparkimportsince,SparkContextasscfrompyspark.sqlimportSparkSessionfrompyspark.sql.functionsimport_functions,isnanfrompyspark.sqlimportSQLContextfrompyspark.sql.typesimport*frompysparkimportHiveContextashcspark=SparkSession.builder.appName("example-spark").config("spark.sql.

javascript - MongoDB mapReduce 每分钟文档计数由附加类别字段分隔

我有一个具有以下架构的MongoDB集合:constMessageSchema={message:{type:String},category:{typeString,allowedValues:['a','b','c','d','e']},createdAt:{type:Date}}这些消息文档是在随机时间间隔创建的。我想创建一个图表所需的数据集,该图表绘制每个类别的每分钟消息数(计数)。输出将是一个包含键time、a.count、b.count、c.count、d.count和e.count的对象数组。生成的数据集应仅考虑上周的数据,而不是更早的数据。数据集可能非常大。我想我可以用

python - 过滤器生成的 PySpark DataFrame - 它存储在哪里?

对于任何软件架构师来说,这可能是一个基本问题,但我对这个概念感到困惑。假设我有一个存储在hdfs上的大型SparkDataFrame。我现在做这样的过滤操作:df_new=my_big_hdfs_df.where("my_column='testvalue'")print(type(df_new))class'pyspark.sql.dataframe.DataFrame'>df_new到底存储在哪里?如果这是普通的python,我会猜测在内存中的某个地方。但PySpark也是如此吗?或者它只是某种引用?它是否保存在hdfs中某处的磁盘上? 最佳答案

hadoop - 如何将 pyspark 输出写入 impala 表?

我将pyspark用于我的问题陈述,在这里,我想合并我的输出并将其作为我的其他模型的输入。但是在hdfs中,我的输出被分成几部分,因此很难将它们组合起来。所以我想将输出结果直接存储到impala表中,我该怎么做呢? 最佳答案 要将存储在HDFS中的文件内容公开为表,您可以定义一个外部表:CREATEEXTERNALTABLEtable_name(column_1string,...)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'STOREDASTEXTFILELOCATION'/some/path/

python - 如何使用 pyspark 为非 pairwiseRDDs 正确 groupByKey

我是Python新手。我也是pysaprk的新手。我正在尝试运行一个代码,它采用一个元组的元组,看起来像这样(id,(span,mention))来执行.map(lambda(id,(span,text)):(id,text)).我正在使用的代码是:m=text\.map(lambda(id,(span,text)):(id,text))\.mapValues(lambdav:ngrams(v,self.max_ngram))\'''errortriggeredhere'''.flatMap(lambda(target,tokens):(((target,t),1)fortintoke

MongoDB 和 Spark : difference between mongo-hadoop and mongo-spark

mongo-hadoop和mongo-spark连接器有什么区别,pymongo是否只能与mango-hadoop一起使用?pymongo是否只能与mongo-hadoop一起使用? 最佳答案 MongoDBConnectorforHadoop是一个库,它允许MongoDB(或其数据格式的备份文件,BSON)用作HadoopMapReduce任务的输入源或输出目标。它旨在提供更大的灵active和性能,并使MongoDB中的数据与Hadoop生态系统的其他部分(包括以下部分)轻松集成:pigSparkmap化简Hadoop流媒体hi

apache-spark - 无法使用 pyspark 写入 hdfs

我正在尝试使用pyspark将数据写入hdfs,如下所示:importpysparkfrompyspark.sqlimportSparkSessionsparkSession=SparkSession.builder.appName("example-pyspark-read-and-write").getOrCreate()data=[('First',1),('Second',2),('Third',3),('Fourth',4),('Fifth',5)]df=sparkSession.createDataFrame(data)df.write.csv("hdfs://:9000/

apache-spark - Apache Spark 2.3.1 - pyspark.sql.SparkSession.builder.enableHiveSupport() 是必要的吗?

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我对Hive的理解是它提供了一种使用SQL命令查询HDFS的方法。好的,但还有Spark。Spark拥有所有RDD类方法,这些方法完全有能力,但我更喜欢SQL。输入SparkSQL。所以现在我可以使用SparkSQL通过SQL查询我的数据库,为什么Hive会出现?文档说:enableHiveSupport():EnablesHivesupport,includingconnectivity

mongodb - Hadoop 与 MongoDB 存储

我有一个将NoSQLDB与Hadoop结合使用并对其进行基准测试的项目。我选择了MongoDB作为数据库,但我一直对某些事情感到困惑,并且有一些问题需要澄清:MongoDB会取代HDFS还是它们会协同工作以及如何协同工作?单独对MongoDB进行基准测试与对Hadoop进行基准测试有何不同?因为我觉得它们是同一回事。我找到了用于基准测试的YCSB工具。它可以将它们放在一起进行基准测试吗?我知道MongoDB可以在集群上工作,当monogo在Hadoop之上时,数据将由MongoDB或Hadoop在节点之间共享吗?我希望你澄清这些概念并提前感谢你。 最佳答案

Mongodb_Hadoop MapReduce

我正在尝试运行mongodb和hadoopmapreduce我收到以下警告和错误请帮助我解决这些提前谢谢13/06/2010:42:55WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable13/06/2010:42:55WARNmapred.JobClient:UseGenericOptionsParserforparsingthearguments.ApplicationsshouldimplementToo