我正在尝试从一些不同的 csv/excel 文件为可查询的 MongoDB 构建 json 树。数据通常不完整并由主题 ID 链接。
示例数据如下:
subid,firstvisit,name,contact,dob,gender,visitdate1,age,visitcategory,samplenumber,label_on_sample,completed_by
1,12/31/11,Bob,,12/31/00,Male,,,,,,
1,,,,,,12/31/15,17,Baseline Visit,,,
1,,,,,,12/31/16,18,Follow Up Visit,,,
1,,,,,,12/31/17,18,Follow Up Visit,,,
1,,,,12/31/00,Male,,17,,XXX123,1,Sally
2,1/1/12,,,1/1/01,Female,,,,,,
2,,,,,,1/1/11,10,Baseline Visit,,,
2,,,,,,1/1/12,11,Follow Up Visit,,,
2,,,,,,1/1/13,12,Follow Up Visit,,,
2,,,,,,1/1/14,13,Follow Up Visit,,,
2,,,,,,1/1/15,14,Follow Up Visit,,,
2,,,,1/1/01,Female,,15,,YYY456,2,
2,,,,1/1/01,Female,,15,,ZZZ789,2,Sally'
我希望输出看起来像这样:
[
{
"subject_id": "1",
"name": "Bob",
"dob": "12/31/00",
"gender": "Male",
"visits": {
"12/31/15": {
"age": "17",
"visit_category": "Baseline Visit"
},
"12/31/16": {
"age": "18",
"visit_category": "Follow Up Visit"
},
"12/31/17": {
"age": "18",
"visit_category": "Follow Up Visit"
}
},
"samples": {
"XXX123": {
"completed_by": "Sally",
"label_on_sample": "1"
}
}
},
{
"subject_id": "2",
"name": null,
"dob": "1/1/01",
"gender": "Female",
"visits": {
"1/1/11": {
"age": "10",
"visit_category": "Baseline Visit"
},
"1/1/12": {
"age": "11",
"visit_category": "Follow Up Visit"
},
"1/1/13": {
"age": "12",
"visit_category": "Follow Up Visit"
},
"1/1/14": {
"age": "13",
"visit_category": "Follow Up Visit"
},
"1/1/15": {
"age": "14",
"visit_category": "Follow Up Visit"
}
},
"samples": {
"YYY456": {
"completed_by": null,
"label_on_sample": "2"
},
"ZZZ789": {
"completed_by": "Sally",
"label_on_sample": "2"
}
}
}
]
我有一个程序可以将所有这些放入正确的结构中,但不幸的是,因为它使用 csv 的 DictReader,似乎所有变量都以字符串形式输入,因此很难以有意义的方式进行查询。此代码如下:
def solution(csv_filename):
by_subject_id = defaultdict(lambda: {
'name': None,
'dob': None,
'gender': None,
'visits': {},
'samples': {}
})
with open(csv_filename) as f:
dict_reader = DictReader(f)
for row in dict_reader:
non_empty = {k: v for k, v in row.items() if v}
subject_id = non_empty['subid'] # must have to group by
first_visit = non_empty.get('firstvisit') # optional
sample = non_empty.get('samplenumber') # optional
visit = non_empty.get('visitdate1') # optional
if first_visit:
by_subject_id[subject_id].update({
'name': non_empty.get('name'),
'dob': non_empty.get('dob'),
'gender': non_empty.get('gender')
})
elif visit:
by_subject_id[subject_id]['visits'][visit] = {
'age': non_empty.get('age'),
'visit_category': non_empty.get('visitcategory')
}
elif sample:
by_subject_id[subject_id]['samples'][sample] = {
'completed_by': non_empty.get('completed_by'),
'label_on_sample': non_empty.get('label_on_sample')
}
return [{'subject_id': k, **v} for k, v in by_subject_id.items()]
解决此问题的最佳方法是什么?我可以将其转换为适用于数据框并希望保留数据类型吗?
非常感谢您的任何建议。 Mongo 的新手,只是想获得一些有用的东西。
最佳答案
这不是最好的解决方案,但使用 pandas 可能有助于保持值的类型,我没有看代码的效率,只是阅读 csv 文件的部分,但你可以这样做:
import pandas as pd
def solution(csv_filename):
by_subject_id = defaultdict(lambda: {
.
.
})
df = pd.read_csv(csv_filename).fillna('')
for row in df .iterrows():
non_empty = {k: v for k, v in row[1].iteritems() if v != ''}
subject_id = non_empty['subid'] # must have to group by
.
.
.
我尽量保持几行不变,其他一切都是一样的。最终,如果您可以直接将已清理的 DF 作为参数而不是读取 csv 文件,那会更好。否则,您可以在 read_csv() 中添加 dtype= 例如:
df = pd.read_csv(csv_filename,dtype={'subid':int, 'age':int}).fillna('')
添加任何你想要的类型。
希望对你有帮助
关于python - 从复杂的 Csv/DataFrame 加载 Json,为 MongoDB 保留数据类型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50682520/
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。
我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
我正在使用ruby1.9解析以下带有MacRoman字符的csv文件#encoding:ISO-8859-1#csv_parse.csvName,main-dialogue"Marceu","Giveittohimóhe,hiswife."我做了以下解析。require'csv'input_string=File.read("../csv_parse.rb").force_encoding("ISO-8859-1").encode("UTF-8")#=>"Name,main-dialogue\r\n\"Marceu\",\"Giveittohim\x97he,hiswife.\"\
查看Ruby的CSV库的文档,我非常确定这是可能且简单的。我只需要使用Ruby删除CSV文件的前三列,但我没有成功运行它。 最佳答案 csv_table=CSV.read(file_path_in,:headers=>true)csv_table.delete("header_name")csv_table.to_csv#=>ThenewCSVinstringformat检查CSV::Table文档:http://ruby-doc.org/stdlib-1.9.2/libdoc/csv/rdoc/CSV/Table.html
鉴于我有以下迁移:Sequel.migrationdoupdoalter_table:usersdoadd_column:is_admin,:default=>falseend#SequelrunsaDESCRIBEtablestatement,whenthemodelisloaded.#Atthispoint,itdoesnotknowthatusershaveais_adminflag.#Soitfails.@user=User.find(:email=>"admin@fancy-startup.example")@user.is_admin=true@user.save!ende
在我的Controller中,我通过以下方式在我的index方法中支持HTML和JSON:respond_todo|format|format.htmlformat.json{renderjson:@user}end在浏览器中拉起它时,它会自然地以HTML呈现。但是,当我对/user资源进行内容类型为application/json的curl调用时(因为它是索引方法),我仍然将HTML作为响应。如何获取JSON作为响应?我还需要说明什么? 最佳答案 您应该将.json附加到请求的url,提供的格式在routes.rb的路径中定义。这
我收到这个错误:RuntimeError(自动加载常量Apps时检测到循环依赖当我使用多线程时。下面是我的代码。为什么会这样?我尝试多线程的原因是因为我正在编写一个HTML抓取应用程序。对Nokogiri::HTML(open())的调用是一个同步阻塞调用,需要1秒才能返回,我有100,000多个页面要访问,所以我试图运行多个线程来解决这个问题。有更好的方法吗?classToolsController0)app.website=array.join(',')putsapp.websiteelseapp.website="NONE"endapp.saveapps=Apps.order("
CSV.open(name,"r").eachdo|row|putsrowend我得到以下错误:CSV::MalformedCSVErrorUnquotedfieldsdonotallow\ror\n文件名是一个.txt制表符分隔文件。我是专门做的。我有一个.csv文件,我转到excel,并将文件保存为.txt制表符分隔的文件。所以它是制表符分隔的。CSV.open不应该能够读取制表符分隔的文件吗? 最佳答案 尝试像这样指定字段分隔符:CSV.open("name","r",{:col_sep=>"\t"}).eachdo|row|
有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳
我一直致力于让我们的Rails2.3.8应用程序在JRuby下正确运行。一切正常,直到我启用config.threadsafe!以实现JRuby提供的并发性。这导致lib/中的模块和类不再自动加载。使用config.threadsafe!启用:$rubyscript/runner-eproduction'pSim::Sim200Provisioner'/Users/amchale/.rvm/gems/jruby-1.5.1@web-services/gems/activesupport-2.3.8/lib/active_support/dependencies.rb:105:in`co