草庐IT

pyspark-mongodb

全部标签

python - 在 Pyspark-Cluster 模式下的工作节点上安装外部库

我正在为NLP处理等开发pyspark。我正在使用TextBlobPython库。通常,在独立模式下,安装外部Python库很容易。在集群模式下,我面临着在工作节点上远程安装这些库的问题。我无法访问每台工作机器以在Python路径中安装这些库。我尝试使用Sparkcontextpyfiles选项传送.zip文件...但问题是这些Python包需要安装在工作机器上。是否有不同的方法可以使这个lib-Textblob在Python路径中可用? 最佳答案 ItriedtouseSparkcontextpyfilesoptiontoship

python - PySpark 读取不存在文件时的错误处理

我有大量目录和文件可供读取。然而,其中一些可能实际上并不存在,这不是问题-我会简单地忽略任何错误-使用try方法。有什么方法可以在PySpark中允许这样做。这是返回的错误信息:py4j.protocol.Py4JJavaError:Anerroroccurredwhilecallingz:org.apache.spark.api.python.PythonRDD.collectAndServe.:org.apache.hadoop.mapred.InvalidInputException:Inputpathdoesnotexist:file:我正在构建一系列文件以查看以下内容:scI

java - 使用 hadoop reducer 在将批量写入操作写入 mongodb 时检查重复记录

我正在使用hadoopmap-reduce来处理XML文件。我直接将JSON数据存储到mongodb中。如何实现在执行BulkWriteOperation之前只将不重复的记录存储到数据库中?重复记录标准将基于产品图片和产品名称,我不想使用吗啡层,我们可以在其中为类成员分配索引.这是我的reducer类:publicclassXMLReducerextendsReducer{privatestaticfinalLoggerLOGGER=Logger.getLogger(XMLReducer.class);protectedvoidreduce(Textkey,Iterablevalues

hadoop - 如何在资源有限的笔记本电脑上安装 pyspark 和 spark 以供学习?

我有一台配备6GBRAM的Windows7笔记本电脑。仅出于学习目的,在此笔记本电脑上安装pyspark和spark的RAM/资源效率最高的方法是什么。我不想处理实际的大数据,但小数据集是理想的,因为这通常只是为了学习pyspark和spark。我更喜欢最新版本的Spark。仅供引用:我没有安装hadoop。谢谢 最佳答案 你基本上有三个选择:从源代码构建一切安装Virtualbox并使用ClouderaQuickstart等预构建的VM安装Docker并找到合适的容器当您选择从源代码构建时,让一切都启动并运行可能会很痛苦。你必须安

python - PySpark - Hive 上下文不返回结果但 SQL 上下文返回类似查询

当我在PySpark中运行HiveContext和SQLContext进行比较查询时,我注意到性能存在巨大差异版本/配置Spark1.3.1(也尝试过Spark1.5.1)Hadoop2.6(在CDH5.4.0上)pyspark--masteryarn--num-executors5--executor-memory10g--driver-memory4g--driver-cores4表格信息database.table有超过2k个分区database.table在field1上分区(在where子句中使用)HIVE上下文实现frompyspark.sqlimportSQLContex

mongodb - mongo-hadoop。不处理 mongodb 文档删除

我想同步mongodb和hadoop,但是当我从mongodb中删除文件时,这个文件在hadoop中一定不能被删除。我尝试使用mongo-hadoop和hive。这是配置单元查询:CREATEEXTERNALTABLESubComponentSubmission(idSTRING,statusINT,providerIdSTRING,dateCreatedTIMESTAMP,subComponentIdSTRING,packageNameSTRING)STOREDBY'com.mongodb.hadoop.hive.MongoStorageHandler'WITHSERDEPROPER

python - 来自 Hive 查询的持久 PySpark Dataframe

我正在从Hive表中获取一些数据:df=sqlContext.sql('selectshubiru,datefromthebigtablebtwherebt.num>10')df.show()#herethequeryisprocessedandtheresultsshown而且一切正常。现在我想对df进行操作,但是每次我对df进行操作时,它都会再次运行针对Hive的查询:importpyspark.sql.functionsasfuncfromdatetimeimportdatetimefrompyspark.sql.typesimportTimestampTypedt_udt=fu

MongoDB助力西门子数字化工厂构建下一代制造执行系统

数据库的高可用性是保障工厂不停工、连续生产的关键所在。在混线生产的情况下,MongoDB对于我们MEMO系统的数据灵活性支撑,保证了产线不停机生产,将运维人员从僵化的工作任务中释放出来,从而能够腾出时间和精力去完成更多高价值工作,极大地提升了运维效率,减少了不必要的人工成本。未来,我们期待能够透过MongoDB新版本、新功能深入更多工业场景,探索更多制造业数字化转型的前沿应用。西门子成都全球灯塔工厂(SEWC),IT工程师田爵松客户简介SEWC:引领数字化未来的灯塔工厂西门子工业自动化产品成都有限公司,简称SEWC,位于四川省成都市高新西区,是西门子工业自动化产品全球第三大研发中心,也是西门子

apache-spark - 使用 spark-xml 从 pyspark 数据框中选择嵌套列

我正在尝试从PysparkDataframe中选择嵌套的ArrayType。我只想从此数据框中选择项目列。我不知道我在这里做错了什么。XML:ABCXYZ305,RamCHowkPuneINClothingBrand:CKSize:L6208数据框架构。root|--_orderid:string(nullable=true)|--items:struct(nullable=true)||--item:array(nullable=true)|||--element:struct(containsNull=true)||||--notes:struct(nullable=true)||

mongodb - 在 Hadoop 中提交 MapReduce 作业时找不到 com.mongodb.hadoop.MongoOutputFormat

我遵循本教程http://www.mongodb.org/display/DOCS/Hadoop+Quick+Start构建mongodb-hadoop。我尝试构建TreasuryYield示例(我的Hadoop版本是0.20.2。),但是当我提交MapReduce作业时出现以下错误:12/10/2414:01:09INFOutil.MongoTool:Createdaconf:'Configuration:core-default.xml,core-site.xml,mongo-defaults.xml,mongo-treasury_yield.xml'on{classcom.mon