我正在尝试将 xml 文件转换为数据框,但格式似乎已关闭。我查看了不同的教程,虽然我在使用 for 循环和浏览已解析文件方面取得了一定的成功,但有人告诉我这个解决方案效率不高。
然后我尝试了这段代码:
require(XML)
parsed<-xmlParse("SEWL.xml")
xmlToDataFrame(parsed)
但它给出了一个错误:[<-.data.frame 中的错误( *tmp* , i, names(nodes[[i]]), value = c("\"LL18179\"\"2016/08\"0.32485.43896.59801.2131\"OK\"", :
列的重复下标
其他代码有效,但格式不是我需要的:
require(XML)
require(plyr)
pldf<-ldply(xmlToList("SEWL.xml"),data.frame)
生成的数据框如下:
.id X..i.. text .attrs test.code test.validuntil test.meas.text test.meas..attrs test.meas.text.1
1 technician "John" <NA> <NA> <NA> <NA> <NA> <NA> <NA>
2 location "CO" <NA> <NA> <NA> <NA> <NA> <NA> <NA>
3 temp <NA> 21.3 celsius <NA> <NA> <NA> <NA> <NA>
4 runtype "routine" <NA> <NA> <NA> <NA> <NA> <NA> <NA>
5 sample <NA> <NA> 2323 "LL18179" "2016/08" 0.3248 baseline 5.4389
6 sample <NA> <NA> 2323 "LL18179" "2016/08" 0.3248 baseline 5.4389
7 sample <NA> <NA> 8979237 "AA09453" "2016/03" 0.0117 baseline 5.6012
8 sample <NA> <NA> 8979237 "AA09453" "2016/03" 0.0117 baseline 5.6012
9 .attrs 2015_07_31_11_33_22 <NA> <NA> <NA> <NA> <NA> <NA> <NA>
10 .attrs 20150731 <NA> <NA> <NA> <NA> <NA> <NA> <NA>
11 .attrs 113322 <NA> <NA> <NA> <NA> <NA> <NA> <NA>
test.meas..attrs.1 test.meas.text.2 test.meas..attrs.2 test.calc test.result test..attrs test.code.1 test.validuntil.1
1 <NA> <NA> <NA> <NA> <NA> <NA> <NA> <NA>
2 <NA> <NA> <NA> <NA> <NA> <NA> <NA> <NA>
3 <NA> <NA> <NA> <NA> <NA> <NA> <NA> <NA>
4 <NA> <NA> <NA> <NA> <NA> <NA> <NA> <NA>
5 std 6.5980 data 1.2131 "OK" laslum "ATR150607" "2017/05"
6 std 6.5980 data 1.2131 "OK" 3 "ATR150607" "2017/05"
7 std 1.1431 data 0.2041 "FAIL" absat <NA> <NA>
8 std 1.1431 data 0.2041 "FAIL" 2 <NA> <NA>
9 <NA> <NA> <NA> <NA> <NA> <NA> <NA> <NA>
10 <NA> <NA> <NA> <NA> <NA> <NA> <NA> <NA>
11 <NA> <NA> <NA> <NA> <NA> <NA> <NA> <NA>
test.meas.text.3 test.meas..attrs.3 test.meas.text.4 test.meas..attrs.4 test.meas.text.5 test.meas..attrs.5
1 <NA> <NA> <NA> <NA> <NA> <NA>
2 <NA> <NA> <NA> <NA> <NA> <NA>
3 <NA> <NA> <NA> <NA> <NA> <NA>
4 <NA> <NA> <NA> <NA> <NA> <NA>
5 0.0673 baseline 4.9721 std 10.3851 data
6 0.0673 baseline 4.9721 std 10.3851 data
7 <NA> <NA> <NA> <NA> <NA> <NA>
8 <NA> <NA> <NA> <NA> <NA> <NA>
9 <NA> <NA> <NA> <NA> <NA> <NA>
10 <NA> <NA> <NA> <NA> <NA> <NA>
11 <NA> <NA> <NA> <NA> <NA> <NA>
test.calc.1 test.result.1 test..attrs.1
1 <NA> <NA> <NA>
2 <NA> <NA> <NA>
3 <NA> <NA> <NA>
4 <NA> <NA> <NA>
5 2.0886 "Warning" atr
6 2.0886 "Warning" 1
7 <NA> <NA> <NA>
8 <NA> <NA> <NA>
9 <NA> <NA> <NA>
10 <NA> <NA> <NA>
11 <NA> <NA> <NA>
这是我正在使用的示例 XML 文件:
<?xml version="1.0" encoding="UTF-8"?>
<experiment name="abc123" date="20150731" time="113322">
<technician>"John"</technician>
<location>"CO"</location>
<temp scale="celsius">21.3</temp>
<runtype>"routine"</runtype>
<sample id="2323">
<test name="laslum" order="3">
<code>"LL18179"</code>
<validuntil>"2016/08"</validuntil>
<meas name="baseline">0.3248</meas>
<meas name="std">5.4389</meas>
<meas name="data">6.5980</meas>
<calc>1.2131</calc>
<result>"OK"</result>
</test>
<test name="atr" order="1">
<code>"ATR150607"</code>
<validuntil>"2017/05"</validuntil>
<meas name="baseline">0.0673</meas>
<meas name="std">4.9721</meas>
<meas name="data">10.3851</meas>
<calc>2.0886</calc>
<result>"Warning"</result>
</test>
</sample>
<sample id="8979237">
<test name="absat" order="2">
<code>"AA09453"</code>
<validuntil>"2016/03"</validuntil>
<meas name="baseline">0.0117</meas>
<meas name="std">5.6012</meas>
<meas name="data">1.1431</meas>
<calc>0.2041</calc>
<result>"FAIL"</result>
</test>
</sample>
</experiment>
以及我希望获得的数据框:
experiment technician location temp runtype sample test order code validuntil baseline std data calc result date time
1 abc123 John CO 21.3 routine 2323 laslum 3 LL18179 2016/08 0.3248 5.4389 6.5980 1.2131 OK 20150731 113322
2 abc123 John CO 21.3 routine 2323 atr 1 ATR150607 2017/05 0.0673 4.9721 10.3851 2.0886 Warning 20150731 113322
3 abc123 John CO 21.3 routine 8979237 absat 2 AA09453 2016/03 0.0117 5.6012 1.1431 0.2041 FAIL 20150731 113322
我不需要完全相同的格式,只需要足够接近的格式即可将其转换为示例。
最佳答案
我们提供了两种解析 XML 的方法。第一个(对实验/样本/测试执行三重迭代)可能会运行得更快,但第二个(在测试节点上使用单个循环并在每个测试节点上通过树返回以获取其祖先)具有更简单的代码。
1) 在最后的注释中使用 Lines,我们在实验/样本/测试节点上实现了三重 xpathApply/xpathSApply 迭代。 e、s和t分别表示当前这样的节点。
library(XML)
doc <- xmlTreeParse(Lines, asText = TRUE, useInternalNodes = TRUE)
do.call("rbind", xpathApply(doc, "//experiment", function(e) {
data.frame(experiment = xmlAttrs(e)[["name"]],
technician = xmlValue(e[["technician"]]),
location = xmlValue(e[["location"]]),
temp = xmlValue(e[["temp"]]),
runtype = xmlValue(e[["runtype"]]),
t(do.call(cbind, xpathApply(e, "sample", function(s) {
sample <- xmlAttrs(s)[["id"]]
xpathSApply(s, "test", function(t) {
c(sample = sample,
test = xmlAttrs(t)[["name"]],
order = xmlAttrs(t)[["order"]],
code = xmlValue(t[["code"]]),
validuntil = xmlValue(t[["validuntil"]]),
baseline = xmlValue(t["meas"][[1]]),
std = xmlValue(t["meas"][[2]]),
data = xmlValue(t["meas"][[3]]),
calc = xmlValue(t[["calc"]]),
result = xmlValue(t[["result"]])
)})}))),
date = xmlAttrs(e)[["date"]],
time = xmlAttrs(e)[["time"]]
)}))
给予:
experiment technician location temp runtype sample test order
1 abc123 "John" "CO" 21.3 "routine" 2323 laslum 3
2 abc123 "John" "CO" 21.3 "routine" 2323 atr 1
3 abc123 "John" "CO" 21.3 "routine" 8979237 absat 2
code validuntil baseline std data calc result date
1 "LL18179" "2016/08" 0.3248 5.4389 6.5980 1.2131 "OK" 20150731
2 "ATR150607" "2017/05" 0.0673 4.9721 10.3851 2.0886 "Warning" 20150731
3 "AA09453" "2016/03" 0.0117 5.6012 1.1431 0.2041 "FAIL" 20150731
time
1 113322
2 113322
3 113322
2) 这是另一种方法,我们只在测试节点上循环,然后向上到达父节点和祖父节点以获取相应的样本和实验信息。
library(XML)
doc <- xmlTreeParse(Lines, asText = TRUE, useInternalNodes = TRUE)
do.call("rbind", xpathApply(doc, "//test", function(t) { # t is test node
s <- xmlParent(t) # s is sample node
e <- xmlParent(s) # e is experiment node
data.frame(experiment = xmlAttrs(e)[["name"]],
technician = xmlValue(e[["technician"]]),
location = xmlValue(e[["location"]]),
temp = xmlValue(e[["temp"]]),
runtype = xmlValue(e[["runtype"]]),
sample = xmlAttrs(s)[["id"]],
test = xmlAttrs(t)[["name"]],
order = xmlAttrs(t)[["order"]],
code = xmlValue(t[["code"]]),
validuntil = xmlValue(t[["validuntil"]]),
baseline = xmlValue(t["meas"][[1]]),
std = xmlValue(t["meas"][[2]]),
data = xmlValue(t["meas"][[3]]),
calc = xmlValue(t[["calc"]]),
result = xmlValue(t[["result"]]),
date = xmlAttrs(e)[["date"]],
time = xmlAttrs(e)[["time"]]
)
}))
给予:
experiment technician location temp runtype sample test order
1 abc123 "John" "CO" 21.3 "routine" 2323 laslum 3
2 abc123 "John" "CO" 21.3 "routine" 2323 atr 1
3 abc123 "John" "CO" 21.3 "routine" 8979237 absat 2
code validuntil baseline std data calc result date
1 "LL18179" "2016/08" 0.3248 5.4389 6.5980 1.2131 "OK" 20150731
2 "ATR150607" "2017/05" 0.0673 4.9721 10.3851 2.0886 "Warning" 20150731
3 "AA09453" "2016/03" 0.0117 5.6012 1.1431 0.2041 "FAIL" 20150731
time
1 113322
2 113322
3 113322
注1:
顺便说一句,如果您将输入的 XML 文件 SEWL.xml 读入 Excel,它会合理地将其放入表格格式,尽管需要一些进一步的处理才能将其精确地放入表格中问题。
注2:
作为 R 对象的输入 Lines 是:
Lines <- '<?xml version="1.0" encoding="UTF-8"?>
<experiment name="abc123" date="20150731" time="113322">
<technician>"John"</technician>
<location>"CO"</location>
<temp scale="celsius">21.3</temp>
<runtype>"routine"</runtype>
<sample id="2323">
<test name="laslum" order="3">
<code>"LL18179"</code>
<validuntil>"2016/08"</validuntil>
<meas name="baseline">0.3248</meas>
<meas name="std">5.4389</meas>
<meas name="data">6.5980</meas>
<calc>1.2131</calc>
<result>"OK"</result>
</test>
<test name="atr" order="1">
<code>"ATR150607"</code>
<validuntil>"2017/05"</validuntil>
<meas name="baseline">0.0673</meas>
<meas name="std">4.9721</meas>
<meas name="data">10.3851</meas>
<calc>2.0886</calc>
<result>"Warning"</result>
</test>
</sample>
<sample id="8979237">
<test name="absat" order="2">
<code>"AA09453"</code>
<validuntil>"2016/03"</validuntil>
<meas name="baseline">0.0117</meas>
<meas name="std">5.6012</meas>
<meas name="data">1.1431</meas>
<calc>0.2041</calc>
<result>"FAIL"</result>
</test>
</sample>
</experiment>'
关于r - 将数据从 xml 转换为 R 数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40787171/
我的目标是转换表单输入,例如“100兆字节”或“1GB”,并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前,我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效,但前提是输入是倍数(“gigabytes”,而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以,功能正常,
我想将html转换为纯文本。不过,我不想只删除标签,我想智能地保留尽可能多的格式。为插入换行符标签,检测段落并格式化它们等。输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有anchor或图像)。我可以将几个正则表达式放在一起,让我达到80%,但我认为可能有一些现有的解决方案更智能。 最佳答案 首先,不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案,它会随着HTML的变化而崩溃,或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
我需要读入一个包含数字列表的文件。此代码读取文件并将其放入二维数组中。现在我需要获取数组中所有数字的平均值,但我需要将数组的内容更改为int。有什么想法可以将to_i方法放在哪里吗?ClassTerraindefinitializefile_name@input=IO.readlines(file_name)#readinfile@size=@input[0].to_i@land=[@size]x=1whilex 最佳答案 只需将数组映射为整数:@land边注如果你想得到一条线的平均值,你可以这样做:values=@input[x]
这道题是thisquestion的逆题.给定一个散列,每个键都有一个数组,例如{[:a,:b,:c]=>1,[:a,:b,:d]=>2,[:a,:e]=>3,[:f]=>4,}将其转换为嵌套哈希的最佳方法是什么{:a=>{:b=>{:c=>1,:d=>2},:e=>3,},:f=>4,} 最佳答案 这是一个迭代的解决方案,递归的解决方案留给读者作为练习:defconvert(h={})ret={}h.eachdo|k,v|node=retk[0..-2].each{|x|node[x]||={};node=node[x]}node[
我有一个对象has_many应呈现为xml的子对象。这不是问题。我的问题是我创建了一个Hash包含此数据,就像解析器需要它一样。但是rails自动将整个文件包含在.........我需要摆脱type="array"和我该如何处理?我没有在文档中找到任何内容。 最佳答案 我遇到了同样的问题;这是我的XML:我在用这个:entries.to_xml将散列数据转换为XML,但这会将条目的数据包装到中所以我修改了:entries.to_xml(root:"Contacts")但这仍然将转换后的XML包装在“联系人”中,将我的XML代码修改为
有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳
我正在使用Rails构建一个简单的聊天应用程序。当用户输入url时,我希望将其输出为html链接(即“url”)。我想知道在Ruby中是否有任何库或众所周知的方法可以做到这一点。如果没有,我有一些不错的正则表达式示例代码可以使用... 最佳答案 查看auto_linkRails提供的辅助方法。这会将所有URL和电子邮件地址变成可点击的链接(htmlanchor标记)。这是文档中的代码示例。auto_link("Gotohttp://www.rubyonrails.organdsayhellotodavid@loudthinking.
我收到格式为的回复#我需要将其转换为哈希值(针对活跃商家)。目前我正在遍历变量并执行此操作:response.instance_variables.eachdo|r|my_hash.merge!(r.to_s.delete("@").intern=>response.instance_eval(r.to_s.delete("@")))end这有效,它将生成{:first="charlie",:last=>"kelly"},但它似乎有点hacky和不稳定。有更好的方法吗?编辑:我刚刚意识到我可以使用instance_variable_get作为该等式的第二部分,但这仍然是主要问题。
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_