草庐IT

pyspark-mongodb

全部标签

mongodb - 通过 spark-submit 将额外的 jar 传递给 Spark

我将Spark与MongoDB结合使用,因此依赖于mongo-hadoop驱动程序。多亏了对我原来问题的输入,我才开始工作here.我的Spark作业正在运行,但是,我收到了我不理解的警告。当我运行这个命令时$SPARK_HOME/bin/spark-submit--driver-class-path/usr/local/share/mongo-hadoop/build/libs/mongo-hadoop-1.5.0-SNAPSHOT.jar:/usr/local/share/mongo-hadoop/spark/build/libs/mongo-hadoop-spark-1.5.0-

mongodb - hadoop-mongodb 驱动程序和 mahout

我使用hadoop-mongodb驱动程序在mongodb之上设置了hadoop。目前我可以成功地将M/R作业的结果输出到mongo集合。我想使用mahout来利用一些提供的算法。是否可以在mongodb之上使用mahout并直接输出到mongo集合?有我可以阅读的方法或示例吗? 最佳答案 是的,但它与Mahout没有直接关系。您以选择MongoDB位置的方式指定输入和输出URL。剩下的就是Hadoop-Mongo集成和设置的问题。 关于mongodb-hadoop-mongodb驱动程

mongodb - flume 或 kafka 相当于 mongodb

在Hadoop世界中,flume或kafka用于流式传输或收集数据并将它们存储在Hadoop中。我只是想知道MangoDB是否有一些类似的机制或工具来实现一些? 最佳答案 MongoDB只是数据库层,并不是像Hadoop生态系统那样的完整解决方案。实际上,在需要处理和存储大量传入数据的情况下,我实际上使用Kafka和Storm将数据存储在MongoDB中。 关于mongodb-flume或kafka相当于mongodb,我们在StackOverflow上找到一个类似的问题:

python - Pyspark 从数据框中的列中删除空值

我的数据框如下所示ID,FirstName,LastName1,Navee,Srikanth2,,Srikanth3,Naveen,现在我的问题陈述是我必须删除行号2,因为名字为空。我正在使用下面的pyspark脚本join_Df1=Name.filter(Name.col(FirstName).isnotnull()).show()我得到的错误是File"D:\0\NameValidation.py",line13,injoin_Df1=filter(Name.FirstName.isnotnull()).show()TypeError:'Column'objectisnotcall

mongodb - 如何将 _id 数据从 mongodb 加载到 Apache Pig

我是Hadoop和ApachePig的新手。我在mongodb中有一个名为用户的集合,具有以下结构。我想通过以下方式将_id加载到ApachePig中:B=LOAD'mongodb://localhost:27017/test.user'USINGcom.mongodb.hadoop.pig.MongoLoader('_id:chararray,firstName:chararray,email:chararray')AS(UID,NAME,EMAIL);但我无法加载它。名称和电子邮件已完美加载。我正在使用这些jar文件REGISTER//avro-1.7.5.jarREGISTER/

hadoop - 如何使用 Pyspark 从 Hive Context 调用用 Java 编写的 Hive UDF

我在配置单元中使用getLastProcessedVal2UDF从表中获取最新的分区。这个UDF是用java编写的。我想通过配置单元上下文使用来自pyspark的相同UDF。dfsql_sel_nxt_batch_id_ini=sqlContext.sql('''selectl4_xxxx_seee.**getLastProcessedVal2**("/data/l4/work/hive/l4__stge/proctl_stg","APP_AMLMKTE_L1","L1_AMLMKT_MDWE","TRE_EXTION","2.1")''')错误:ERRORexec.FunctionR

hadoop - 如何从 pyspark 连接到 Teradata?

我正在尝试从Pyspark连接到Teradata和DB2。我正在使用以下jar:tdgssconfig-15.10.00.14.jarteradata-connector-1.4.1.jarterajdbc4-15.10.00.14.jar&db2jcc4.jar连接字符串:df1=sqlContext.load(source="jdbc",driver="com.teradata.jdbc.TeraDriver",url=db_url,user="db_user",TMODE="TERA",password="db_pwd",dbtable="U114473.EMPLOYEE")df

MongoDB主从复制,一文打尽!

📢📢📢📣📣📣哈喽!大家好,我是【IT邦德】,江湖人称jeames007,10余年DBA及大数据工作经验一位上进心十足的【大数据领域博主】!😜😜😜中国DBA联盟(ACDU)成员,目前服务于工业互联网擅长主流Oracle、MySQL、PG、高斯及Greenplum运维开发,备份恢复,安装迁移,性能优化、故障应急处理等。✨如果有对【数据库】感兴趣的【小可爱】,欢迎关注【IT邦德】💞💞💞❤️❤️❤️感谢各位大可爱小可爱!❤️❤️❤️文章目录前言📣1.MongoDB概述📣2.MongoDB特点📣3.MongoDB主从复制✨3.1架构介绍✨3.2MongoDB副本集📣4.主从集群部署✨4.1yum源配置✨

python - 尝试使用 pyspark 从 S3 获取数据时出现空指针异常

当我尝试使用pyspark从S3获取数据时,出现空指针异常。我正在使用hadoop2.4运行spark1.6.1。我尝试同时使用s3n和s3a。也尝试通过以下方式设置配置:hadoopConf=sc._jsc.hadoopConfiguration()hadoopConf.set("fs.s3.impl","org.apache.hadoop.fs.s3native.NativeS3FileSystem")hadoopConf.set("fs.s3n.awsAccessKeyId","aws-key")hadoopConf.set("fs.s3n.awsSecretAccessKey"

hadoop - pyspark.sql.utils.AnalysisException : u'Path does not exist

我正在使用标准的hdfs运行amazonemr的spark作业,而不是S3来存储我的文件。我在hdfs://user/hive/warehouse/中有一个配置单元表,但在运行我的spark作业时找不到它。我配置了spark属性spark.sql.warehouse.dir以反射(reflect)我的hdfs目录的属性,而yarn日志确实显示:17/03/2819:54:05INFOSharedState:Warehousepathis'hdfs://user/hive/warehouse/'.稍后在日志中说(页面末尾的完整日志):LogType:stdoutLogUploadTime