编辑:此编辑可能会改变此问题的进程。在spark上运行的mongodb聚合(特别是$group)在写回集合时创建了重复的_id记录。结果,mongodb抛出重复键错误。顺便说一句,这个查询在mongoshell中运行得很好。这是我做的:我拿了一个小数据集,并将(聚合)spark代码的结果打印到控制台,而不是写入集合。我打印了完整的结果集,但在_id字段中发现了重复项。数据看起来像这样:(已编辑)Document{{_id=Document{{prodCategory=123},{proId=ABC},{location=US}},details=[Document{{....}},
我正在尝试从一些不同的csv/excel文件为可查询的MongoDB构建json树。数据通常不完整并由主题ID链接。示例数据如下:subid,firstvisit,name,contact,dob,gender,visitdate1,age,visitcategory,samplenumber,label_on_sample,completed_by1,12/31/11,Bob,,12/31/00,Male,,,,,,1,,,,,,12/31/15,17,BaselineVisit,,,1,,,,,,12/31/16,18,FollowUpVisit,,,1,,,,,,12/31/17