草庐IT

mongodb-user

全部标签

mongodb - 在 Hadoop MapReduce(使用 Mongo Hadoop 连接器)之后,重复记录被写入 MongoDB

我们在AWSEMR上的Hadoop测试环境1个主节点2个从节点当我们提交一个小测试作业时,它会触发1个maptask。map任务完成后,将触发3个reduce任务。reduce任务完成后,我们的输出数据将写入Mongo集合。但是我们注意到,在某些情况下,输出中有重复的记录。这会导致我们的下游处理任务崩溃,因为它们不需要重复。我注意到的一件事是,其中一个reduce任务有时会被终止,然后由hadoop重新启动-如果它在将数据写入Mongo的过程中被终止,这会导致重复记录吗?有什么方法可以从日志中看出Mongohadoop连接器是否真的在向Mongo写入数据?有什么方法可以确保在提交给Mo

java - 复制自本地 : `/user/hduser/input' : No such file or directory

我试图从这个website开始做WordCount教程但遇到了一些问题,我遵循了这个thread中的解决方案.一切都很好,直到我尝试执行产生此错误的hadoopfs-copyFromLocal/user/hduser/inputcopyFromLocal:`/user/hduser/input':Nosuchfileordirectory我试图通过执行hadoopfs-mkdir/user/hduser/input来双重确认是否存在这样的文件,它说mkdir:/user/hduser/输入':文件存在`所以我对哪里出了问题有点困惑。我只想能够执行copyFromLocal函数。When

hadoop - HDFS NFS 网关 "No groups available for user"警告

我正在使用NFS网关服务将一些数据提取到HDFS(CDH5.4.5)中。一切似乎都很好,直到我收到一条警告消息,通知我日志记录目录的可用空间非常低。我快速查看了大日志文件:sudofind/var/log-typef-size+100000k-execls-lh{}\;|awk'{print$9":"$5}'...并注意到一个名为/var/log/hadoop-hdfs/hadoop-cmf-hdfs-NAMENODE-[fqdn-of-name-node].log.out的34GB文件。快速浏览内部显示几乎完全由以下警告组成:2015-11-3013:41:15,535WARNorg

javascript - MongoDB mapReduce 每分钟文档计数由附加类别字段分隔

我有一个具有以下架构的MongoDB集合:constMessageSchema={message:{type:String},category:{typeString,allowedValues:['a','b','c','d','e']},createdAt:{type:Date}}这些消息文档是在随机时间间隔创建的。我想创建一个图表所需的数据集,该图表绘制每个类别的每分钟消息数(计数)。输出将是一个包含键time、a.count、b.count、c.count、d.count和e.count的对象数组。生成的数据集应仅考虑上周的数据,而不是更早的数据。数据集可能非常大。我想我可以用

MongoDB 和 Spark : difference between mongo-hadoop and mongo-spark

mongo-hadoop和mongo-spark连接器有什么区别,pymongo是否只能与mango-hadoop一起使用?pymongo是否只能与mongo-hadoop一起使用? 最佳答案 MongoDBConnectorforHadoop是一个库,它允许MongoDB(或其数据格式的备份文件,BSON)用作HadoopMapReduce任务的输入源或输出目标。它旨在提供更大的灵active和性能,并使MongoDB中的数据与Hadoop生态系统的其他部分(包括以下部分)轻松集成:pigSparkmap化简Hadoop流媒体hi

mongodb - Hadoop 与 MongoDB 存储

我有一个将NoSQLDB与Hadoop结合使用并对其进行基准测试的项目。我选择了MongoDB作为数据库,但我一直对某些事情感到困惑,并且有一些问题需要澄清:MongoDB会取代HDFS还是它们会协同工作以及如何协同工作?单独对MongoDB进行基准测试与对Hadoop进行基准测试有何不同?因为我觉得它们是同一回事。我找到了用于基准测试的YCSB工具。它可以将它们放在一起进行基准测试吗?我知道MongoDB可以在集群上工作,当monogo在Hadoop之上时,数据将由MongoDB或Hadoop在节点之间共享吗?我希望你澄清这些概念并提前感谢你。 最佳答案

Mongodb_Hadoop MapReduce

我正在尝试运行mongodb和hadoopmapreduce我收到以下警告和错误请帮助我解决这些提前谢谢13/06/2010:42:55WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable13/06/2010:42:55WARNmapred.JobClient:UseGenericOptionsParserforparsingthearguments.ApplicationsshouldimplementToo

pikachu靶场搭建时数据库连接问题(Warning: mysqli_connect(): (HY000/1045): Access denied for user ‘root‘)

第一步先确认DBPW改为自己数据库的密码,注意/WWW/pikachu/inc/config.php和/WWW/pikachu/pkxss/inc/inc/config.php这两个文件都要改。 第二步然后打开网站:http://主机ip/pikachu,却出现以下错误:Warning:mysqli_connect():(HY000/1045):Accessdeniedforuser'root'@'localhost'(usingpassword:NO)in xxx\phpstudy_pro\WWW\pikachu\index.php online 14 第三步在刚才的网址路径添加/insta

mongodb - 如何使用 mongo-hadoop 从 Pig 上的 BSON 文件加载数组?

我正在尝试使用com.mongodb.hadoop.pig.BSONLoader(https://github.com/mongodb/mongo-hadoop/blob/master/pig/README.md)将数据从MongoDBBSON文件加载到Pig中,但我遇到了困难。MongoDB上的数据包括可变大小的数组,我不确定如何将其加载到pig中(作为元组?)。这是来自MongoDB的示例记录:{"_id":{"$oid":"52fbbca6e4b029a79cd17ff7"},"field":"value","variableSizeArray":["value1","value

hadoop - 错误 terasort.TeraSort : Input path does not exist: maprfs:/user/user01/–DXmx1024m

在通过修改参数运行terasort应用程序时,我收到以下错误。15/05/2421:41:42ERRORterasort.TeraSort:Inputpathdoesnotexist:maprfs:/user/user01/–DXmx1024m我正在运行用于执行慢跑的命令$hadoopjar/opt/mapr/hadoop/hadoop-0.20.2/hadoop-0.20.2-dev-\examples.jarterasort–DXmx1024m–Dmapred.reduce.tasks=2\-Dio.sort.mb=1/user/user01/6/TERA_IN/user/user