草庐IT

mongodb-driver-core

全部标签

mongodb - 限制选择查询批量大小

我正在使用MongoToolrunner将数据从mongoDB导入到Hadoopmapreduce作业。由于数据的大小,我收到OutOfMemoryError。所以我想限制我以批量方式获取的记录数。MongoConfigUtil.setQuery()只能设置查询但我不能设置大小来限制获取的记录数。我正在寻找的是类似MongoConfigUtil.setBatchSize()接着MongoConfigUtil.getNextBatch()类似的东西。请提出建议。 最佳答案 您可以使用类MongoInputSplit的setLimit方

mongodb - 带有 $date 的 mongo.input.query 不过滤输入到 hadoop

我有一个分片输入集合,我想在将其发送到我的hadoop集群以进行mapreduce计算之前对其进行过滤。我的$hadoopjar-命令中有这个参数mongo.input.query='{_id.uuid:"device-964693"}'并且有效。输出不会mapreduce任何不满足此查询的数据。但这不起作用:mongo.input.query='{_id.day:{\\$lt:{\\$date:1388620740000}}}'没有数据作为输出产生。1388620740000表示日期WedJan01201423:59:00GMT+0000(GMT)。该设置使用的是hadoop2.2、

【软件开发/设计】分布式架构中的组件(如Kafka、MongoDB和Nginx)如何进行容器化部署

【软件开发/设计】分布式架构中的组件(如Kafka、MongoDB和Nginx)如何进行容器化部署方式一容器化部署的一般步骤Nginx、MongoDB、Kafka容器化部署示例1.Nginx2.MongoDB3.Kafka容器化部署的优势方式二1.Nginx部署创建Deployment创建ServiceNginx和ConfigMap总结应用配置2.MongoDB部署创建StatefulSet创建ServiceMongoDB和ConfigMap应用配置3.Kafka部署使用Helm1.验证Kafka安装2.查看Helm安装的说明3.连接到Kafka4.使用Kafka5.Kafka客户端配置6.监

Ef Core花里胡哨系列(4) 多租户

EfCore花里胡哨系列(4)多租户当然,我们要考虑设计问题,例如,切换Schema或者改变数据库时,EfCore同样也会刷新改实体的缓存,所以,首次查询将会很慢,不适合大表。基于Schema实现多租户在我的上一篇博客中[EfCore花里胡哨系列(3)动态修改实体对应的表(分表)、多租户]中我们实现了如何分表,同理,我们可以用近似的方法来切换表的Schema,只需要一点很小的改动。publicclassSampleDbContext(DbContextOptionsoptions):DbContext(options){protectedoverridevoidOnModelCreating(

java - 使用 hadoop reducer 在将批量写入操作写入 mongodb 时检查重复记录

我正在使用hadoopmap-reduce来处理XML文件。我直接将JSON数据存储到mongodb中。如何实现在执行BulkWriteOperation之前只将不重复的记录存储到数据库中?重复记录标准将基于产品图片和产品名称,我不想使用吗啡层,我们可以在其中为类成员分配索引.这是我的reducer类:publicclassXMLReducerextendsReducer{privatestaticfinalLoggerLOGGER=Logger.getLogger(XMLReducer.class);protectedvoidreduce(Textkey,Iterablevalues

mongodb - mongo-hadoop。不处理 mongodb 文档删除

我想同步mongodb和hadoop,但是当我从mongodb中删除文件时,这个文件在hadoop中一定不能被删除。我尝试使用mongo-hadoop和hive。这是配置单元查询:CREATEEXTERNALTABLESubComponentSubmission(idSTRING,statusINT,providerIdSTRING,dateCreatedTIMESTAMP,subComponentIdSTRING,packageNameSTRING)STOREDBY'com.mongodb.hadoop.hive.MongoStorageHandler'WITHSERDEPROPER

hadoop - 给定 --driver-class-path 时,spark 找不到 spark-class-launcher-output 文件

我正在尝试让spark与aws一起玩得开心。在Windows环境中工作。无论我尝试过哪些选项,都永远找不到NativeS3类。目前,如果我使用:spark-shell--packagescom.amazonaws:aws-java-sdk-s3:1.10.38,com.amazonaws:aws-java-sdk-core:1.10.38,org.apache。hadoop:hadoop-aws:2.7.1作为我的命令,然后我将下载文件并可以使用s3,但是感觉很老套,每次下载它们都不理想。在另一个人的帮助下,我一直在尝试其他选项,结果是:>spark-shell--driver-cla

MongoDB助力西门子数字化工厂构建下一代制造执行系统

数据库的高可用性是保障工厂不停工、连续生产的关键所在。在混线生产的情况下,MongoDB对于我们MEMO系统的数据灵活性支撑,保证了产线不停机生产,将运维人员从僵化的工作任务中释放出来,从而能够腾出时间和精力去完成更多高价值工作,极大地提升了运维效率,减少了不必要的人工成本。未来,我们期待能够透过MongoDB新版本、新功能深入更多工业场景,探索更多制造业数字化转型的前沿应用。西门子成都全球灯塔工厂(SEWC),IT工程师田爵松客户简介SEWC:引领数字化未来的灯塔工厂西门子工业自动化产品成都有限公司,简称SEWC,位于四川省成都市高新西区,是西门子工业自动化产品全球第三大研发中心,也是西门子

httpfirewall阻塞的UrlenCodedSlash(Grails 3.3.0.rc1; Spring-Security-Core 3.2.0.m1)

我在日志中发现了这个错误:org.springframework.security.web.firewall.RequestRejectedException:TherequestURIcannotcontainencodedslash.Got/;lm=1488887514;m=js;asset=delayedElements%2Fsnippet;tf;ucm=353df4434086482d9d1d7b89758e156e/atorg.springframework.security.web.firewall.DefaultHttpFirewall.getFirewalledRequest(

mongodb - 在 Hadoop 中提交 MapReduce 作业时找不到 com.mongodb.hadoop.MongoOutputFormat

我遵循本教程http://www.mongodb.org/display/DOCS/Hadoop+Quick+Start构建mongodb-hadoop。我尝试构建TreasuryYield示例(我的Hadoop版本是0.20.2。),但是当我提交MapReduce作业时出现以下错误:12/10/2414:01:09INFOutil.MongoTool:Createdaconf:'Configuration:core-default.xml,core-site.xml,mongo-defaults.xml,mongo-treasury_yield.xml'on{classcom.mon