草庐IT

python - 将嵌套的 MongoDB 导入 Pandas

coder 2023-11-05 原文

我在 MongoDB 中有一个包含大量嵌套文档的集合,我想展平并导入到 Pandas。有一些嵌套的字典,还有我想转换成列的字典列表(有关详细信息,请参见下面的示例)。

我已经有了适用于小批量文档的功能。但是解决方案(我找到了 in the answer to this question )使用 json。 json.loads 操作的问题在于,它在从 Collection 中进行较大选择时失败并出现 MemoryError

我尝试了很多建议其他 json 解析器(例如 ijson)的解决方案,但出于不同的原因,它们都没有解决我的问题。如果我想通过 json 保持转换,剩下的唯一方法是将较大的选择分块为较小的文档组并迭代解析。

此时我想,- 这是我的主要问题 - 也许有一种更聪明的方法来取消嵌套,而无需在 MongoDB 或 Pandas 中直接通过 json 绕道或以某种方式组合?

这是一个简短的示例文档:

{
  '_id': ObjectId('5b40fcc4affb061b8871cbc5'),
  'eventId': 2,
  'sId' : 6833,
  'stage': {
    'value': 1,
    'Name': 'FirstStage'
  },
  'quality': [
    {
      'type': {
        'value': 2,
        'Name': 'Color'
      },
      'value': '124'
    },
    {
      'type': {
        'value': 7,
        'Name': 'Length'
      },
      'value': 'Short'
    },
    {
      'type': {
        'value': 15,
        'Name': 'Printed'
      }
    }
}

这就是成功的数据框表示的样子(为了便于阅读,我跳过了 '_id' 和 'sId' 列:

    eventId    stage.value    stage.name    q_color    q_length    q_printed
1   2          1              'FirstStage'  124        'Short'     1 

到目前为止我的代码(遇到内存问题 - 见上文):

def load_events(filter = 'sId', id = 6833, all = False):
  if all:
    print('Loading all events.')
    cursor = events.find()
  else:
    print('Loading events with %s equal to %s.' %(filter, id))
    print('Filtering...')
    cursor = events.find({filter : id})

  print('Loading...')
  l = list(cursor)

  print('Parsing json...')
  sanitized = json.loads(json_util.dumps(l))

  print('Parsing quality...')
  for ev in sanitized:
    for q in ev['quality']:
        name = 'q_' + str(q['type']['Name'])
        value = q.pop('value', 1)
        ev[name] = value
    ev.pop('quality',None)

  normalized = json_normalize(sanitized)

  df = pd.DataFrame(normalized)

  return df

最佳答案

您不需要使用 json 解析器转换嵌套结构。只需从记录列表创建数据框:

df = DataFrame(list(cursor))

然后使用 pandas 来解压你的列表和字典:

import pandas
from itertools import chain
import numpy

df = pandas.DataFrame(t)
df['stage.value'] = df['stage'].apply(lambda cell: cell['value'])
df['stage.name'] = df['stage'].apply(lambda cell: cell['Name'])
df['q_']= df['quality'].apply(lambda cell: [(m['type']['Name'], m['value'] if 'value' in m.keys() else 1) for m in cell])
df['q_'] = df['q_'].apply(lambda cell: dict((k, v) for k, v in cell))
keys = set(chain(*df['q_'].apply(lambda column: column.keys())))
for key in keys:
    column_name = 'q_{}'.format(key).lower()
    df[column_name] = df['q_'].apply(lambda cell: cell[key] if key in cell.keys() else numpy.NaN) 
df.drop(['stage', 'quality', 'q_'], axis=1, inplace=True)

我使用三个步骤来解包嵌套数据类型。首先,名称和值用于创建成对(元组)的平面列表。在第二步中,基于元组的字典从元组的第一个位置获取键,从第二个位置获取值。然后使用集合提取所有现有的属性名称。每个属性使用循环获取一个新列。在循环内,每对的值都映射到相应的列单元格。

关于python - 将嵌套的 MongoDB 导入 Pandas,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51698540/

有关python - 将嵌套的 MongoDB 导入 Pandas的更多相关文章

  1. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  2. ruby-on-rails - Rails 编辑表单不显示嵌套项 - 2

    我得到了一个包含嵌套链接的表单。编辑时链接字段为空的问题。这是我的表格:Editingkategori{:action=>'update',:id=>@konkurrancer.id})do|f|%>'Trackingurl',:style=>'width:500;'%>'Editkonkurrence'%>|我的konkurrencer模型:has_one:link我的链接模型:classLink我的konkurrancer编辑操作:defedit@konkurrancer=Konkurrancer.find(params[:id])@konkurrancer.link_attrib

  3. ruby - 将散列转换为嵌套散列 - 2

    这道题是thisquestion的逆题.给定一个散列,每个键都有一个数组,例如{[:a,:b,:c]=>1,[:a,:b,:d]=>2,[:a,:e]=>3,[:f]=>4,}将其转换为嵌套哈希的最佳方法是什么{:a=>{:b=>{:c=>1,:d=>2},:e=>3,},:f=>4,} 最佳答案 这是一个迭代的解决方案,递归的解决方案留给读者作为练习:defconvert(h={})ret={}h.eachdo|k,v|node=retk[0..-2].each{|x|node[x]||={};node=node[x]}node[

  4. Ruby——嵌套类和子类是一回事吗? - 2

    下面例子中的Nested和Child有什么区别?是否只是同一事物的不同语法?classParentclassNested...endendclassChild 最佳答案 不,它们是不同的。嵌套:Computer之外的“Processor”类只能作为Computer::Processor访问。嵌套为内部类(namespace)提供上下文。对于ruby​​解释器Computer和Computer::Processor只是两个独立的类。classComputerclassProcessor#Tocreateanobjectforthisc

  5. ruby - 模块嵌套代码风格偏好 - 2

    我的假设是moduleAmoduleBendend和moduleA::Bend是一样的。我能够从thisblog找到解决方案,thisSOthread和andthisSOthread.为什么以及什么时候应该更喜欢紧凑语法A::B而不是另一个,因为它显然有一个缺点?我有一种直觉,它可能与性能有关,因为在更多命名空间中查找常量需要更多计算。但是我无法通过对普通类进行基准测试来验证这一点。 最佳答案 这两种写作方法经常被混淆。首先要说的是,据我所知,没有可衡量的性能差异。(在下面的书面示例中不断查找)最明显的区别,可能也是最著名的,是你的

  6. ruby-on-rails - 使用回形针的嵌套形式 - 2

    我有一个名为posts的模型,它有很多附件。附件模型使用回形针。我制作了一个用于创建附件的独立模型,效果很好,这是此处说明的View(https://github.com/thoughtbot/paperclip):@attachment,:html=>{:multipart=>true}do|form|%>posts中的嵌套表单如下所示:prohibitedthispostfrombeingsaved:@attachment,:html=>{:multipart=>true}do|at_form|%>附件记录已创建,但它是空的。文件未上传。同时,帖子已成功创建...有什么想法吗?

  7. ruby-on-rails - Rails 3,嵌套资源,没有路由匹配 [PUT] - 2

    我真的为这个而疯狂。我一直在搜索答案并尝试我找到的所有内容,包括相关问题和stackoverflow上的答案,但仍然无法正常工作。我正在使用嵌套资源,但无法使表单正常工作。我总是遇到错误,例如没有路线匹配[PUT]"/galleries/1/photos"表格在这里:/galleries/1/photos/1/edit路线.rbresources:galleriesdoresources:photosendresources:galleriesresources:photos照片Controller.rbdefnew@gallery=Gallery.find(params[:galle

  8. Python 相当于 Perl/Ruby ||= - 2

    这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意,但是谷歌搜索||=并不是很有帮助;)Python中是否有与Ruby和Perl中的||=语句等效的语句?例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外,类似这样的东西的通用术语是什么?条件分配是我的第一个猜测,但Wikipediapage跟我想的不太一样。

  9. ruby - 检查是否通过 require 执行或导入了 Ruby 程序 - 2

    如何检查Ruby文件是否是通过“require”或“load”导入的,而不是简单地从命令行执行的?例如:foo.rb的内容:puts"Hello"bar.rb的内容require'foo'输出:$./foo.rbHello$./bar.rbHello基本上,我想调用bar.rb以不执行puts调用。 最佳答案 将foo.rb改为:if__FILE__==$0puts"Hello"end检查__FILE__-当前ruby​​文件的名称-与$0-正在运行的脚本的名称。 关于ruby-检查是否

  10. java - 什么相当于 ruby​​ 的 rack 或 python 的 Java wsgi? - 2

    什么是ruby​​的rack或python的Java的wsgi?还有一个路由库。 最佳答案 来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht

随机推荐