python - 如何在 Rpy2 中使用 pandas 数据帧和 numpy 数组？

coder 2023-08-15 原文

我想将 pandas 与 numpy 一起用于我的所有分析，但使用 Rpy2 来绘制我的数据。我想使用 pandas 数据帧进行所有分析，然后通过 rpy2 使用 R 的完整绘图来绘制这些。 py2，并且正在使用 ipython 进行绘图。执行此操作的正确方法是什么？

我尝试的几乎所有命令都失败了。例如:

我正在尝试绘制 pandas DataFrame df 两列之间的散点图。我希望在 x/y 轴中使用 df 的标签，就像它是 R 数据帧时一样。有没有办法做到这一点？当我尝试使用 r.plot 执行此操作时，我得到了这个乱码图:

In: r.plot(df.a, df.b) # df 是 pandas DataFrame

产量:

输出:rpy2.rinterface.NULL

导致情节:

如您所见，轴标签乱七八糟，它没有像应该的那样从 DataFrame 读取轴标签(X 轴是 df 的 a 列Y 轴是 b 列)。

如果我尝试使用 r.hist 制作直方图，它根本不起作用，并产生错误:

In: r.hist(df.a)
Out: 
...
vectors.pyc in <genexpr>((x,))
    293         if l < 7:
    294             s = '[' + \
--> 295                 ', '.join((p_str(x, max_width = math.floor(52 / l)) for x in self[ : 8])) +\
    296                 ']'
    297         else:

vectors.pyc in p_str(x, max_width)
    287                     res = x
    288                 else:
--> 289                     res = "%s..." % (str(x[ : (max_width - 3)]))
    290             return res
    291 

TypeError: slice indices must be integers or None or have an __index__ method

导致这个情节:

知道错误是什么意思吗？在这里，轴又乱七八糟，乱七八糟的数据。

编辑:此错误仅在使用 ipython 时发生。当我从脚本运行命令时，它仍然会产生有问题的图，但至少运行时没有错误。从 ipython 调用这些命令一定有问题。

我还尝试按照下面海报的建议将 pandas DataFrame df 转换为 R DataFrame，但也失败并出现此错误:

com.convert_to_r_dataframe(mydf) # mydf is a pandas DataFrame
----> 1 com.convert_to_r_dataframe(mydf)
in convert_to_r_dataframe(df, strings_as_factors)
    275     # FIXME: This doesn't handle MultiIndex
    276 
--> 277     for column in df:
    278         value = df[column]
    279         value_type = value.dtype.type

TypeError: iteration over non-sequence

我怎样才能让这些基本的绘图功能在 Pandas DataFrame 上工作(从 Pandas DataFrame 的标签中读取绘图标签)，并让 Pandas DF 到 R DF 之间的转换工作？

EDIT2:这是一个 csv 文件“test.txt”(http://pastebin.ca/2311928)的完整示例和我回答@dale 评论的代码:

import rpy2
from rpy2.robjects import r
import rpy2.robjects.numpy2ri
import pandas.rpy.common as com
from rpy2.robjects.packages import importr
from rpy2.robjects.lib import grid
from rpy2.robjects.lib import ggplot2
rpy2.robjects.numpy2ri.activate()
from numpy import *
import scipy

# load up pandas df
import pandas
data = pandas.read_table("./test.txt")
# plotting a column fails
print "data.c2: ", data.c2
r.plot(data.c2)
# Conversion and then plotting also fails
r_df = com.convert_to_r_dataframe(data)
r.plot(r_df)

绘制“data.c2”列的调用失败，即使 data.c2 是 pandas df 的列，因此就所有意图和目的而言应该是一个 numpy 数组。我使用 activate() 调用，所以我认为它会将此列作为一个 numpy 数组处理并绘制它。

在转换为 R 数据帧后第二次调用绘制数据帧 data 也失败了。这是为什么？如果我从 R 加载 test.txt 作为数据框，我可以 plot() 它并且因为我的数据框已从 pandas 转换为 R，它看起来像它也应该在这里工作。

当我在 ipython 中尝试 rmagic 时，由于某种原因它没有启动绘图窗口，尽管它没有出错。 IE。如果我这样做:

In [12]: X = np.array([0,1,2,3,4])

In [13]: Y = np.array([3,5,4,6,7])
In [14]: import rpy2

In [15]: from rpy2.robjects import r

In [16]: import rpy2.robjects.numpy2ri

In [17]: import pandas.rpy.common as com

In [18]: from rpy2.robjects.packages import importr

In [19]: from rpy2.robjects.lib import grid

In [20]: from rpy2.robjects.lib import ggplot2


In [21]: rpy2.robjects.numpy2ri.activate()

In [22]: from numpy import *

In [23]: import scipy

In [24]: r.assign("x", X)
Out[24]: 
<Array - Python:0x592ad88 / R:0x6110850>
[       0,        1,        2,        3,        4]

In [25]: r.assign("y", Y)
<Array - Python:0x592f5f0 / R:0x61109b8>
[       3,        5,        4,        6,        7]

In [27]: %R plot(x,y)

没有错误，但也没有绘图窗口。无论如何，如果可能的话，我想坚持使用 rpy2 而不是依赖 rmagic。

谢谢。

最佳答案

[注意:您在“edit 2”中的代码在这里工作(Python 2.7、rpy2-2.3.2、R-1.15.2)。]

正如 @dale 提到的，每当 R 对象是匿名的(即对象不存在 R 符号)时，R deparse(substitute()) 将最终返回 structure() 的 R 对象，一个可能的解决方法是指定“xlab”和“ylab”参数；对于某些情节，您还必须指定 main(标题)。

解决此问题的另一种方法是使用 R 的公式并提供数据框(在我们计算出转换部分后，下面会详细介绍)。

忘记 pandas.rpy 中的内容。它既损坏又似乎忽略了 rpy2 中可用的功能。

较早的quick fix to conversion with ipython可以很容易地转换为适当的转换。我正在考虑在 rpy2 代码库中添加一个(有更多的功能)，但与此同时，只需在代码示例中的所有导入之后添加以下代码段。每当进行 R 调用时，它都会透明地将 pandas 的 DataFrame 对象转换为 rpy2 的 DataFrame。

from collections import OrderedDict
py2ri_orig = rpy2.robjects.conversion.py2ri
def conversion_pydataframe(obj):
    if isinstance(obj, pandas.core.frame.DataFrame):
        od = OrderedDict()
        for name, values in obj.iteritems():
            if values.dtype.kind == 'O':
                od[name] = rpy2.robjects.vectors.StrVector(values)
            else:
                od[name] = rpy2.robjects.conversion.py2ri(values)
        return rpy2.robjects.vectors.DataFrame(od)
    elif isinstance(obj, pandas.core.series.Series):
        # converted as a numpy array
        res = py2ri_orig(obj) 
        # "index" is equivalent to "names" in R
        if obj.ndim == 1:
            res.names = ListVector({'x': ro.conversion.py2ri(obj.index)})
        else:
            res.dimnames = ListVector(ro.conversion.py2ri(obj.index))
        return res
    else:
        return py2ri_orig(obj) 
rpy2.robjects.conversion.py2ri = conversion_pydataframe

现在下面的代码将“正常工作”:

r.plot(rpy2.robjects.Formula('c3~c2'), data)
# `data` was converted to an rpy2 data.frame on the fly
# and the a scatter plot c3 vs c2 (with "c2" and "c3" the labels on
# the "x" axis and "y" axis).

我还注意到您正在导入 ggplot2，但没有使用它。目前转换必须明确要求。例如:

p = ggplot2.ggplot(rpy2.robjects.conversion.py2ri(data)) +\
    ggplot2.geom_histogram(ggplot2.aes_string(x = 'c3'))
p.plot()

关于python - 如何在 Rpy2 中使用 pandas 数据帧和 numpy 数组？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14656852/

何在 python code rpy2 robjects numpy pandas ipython

有关python - 如何在 Rpy2 中使用 pandas 数据帧和 numpy 数组？的更多相关文章

ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2
我正在学习如何使用Nokogiri，根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2
我有一个Ruby程序，它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重，我想提高压缩级别，因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗？是否有另一个允许指定压缩级别的Ruby库？最佳答案这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法？ - 2
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2
很好奇，就使用rubyonrails自动化单元测试而言，你们正在做什么？您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您？git中的预提交Hook？只是手动调用？我完全理解测试，但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的，并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您？最佳答案不确定您到底想听什么，但是有几个级别的自动代码库控制:在处理某项功能时，您可以使用类似autotest的内容获得关于哪些有效，哪些无效的即时反馈。要确保您的提
ruby - 在 Ruby 中使用匿名模块 - 2
假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外，还有什么方法可以访问C和m中的其他内容？我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)？如何在使用完匿名模块后将其删除，使其定义的常量不再存在？最佳答案三个答案:是的，使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于
ruby - 如何在 Ruby 中顺序创建 PI - 2
出于纯粹的兴趣，我很好奇如何按顺序创建PI，而不是在过程结果之后生成数字，而是让数字在过程本身生成时显示。如果是这种情况，那么数字可以自行产生，我可以对以前看到的数字实现垃圾收集，从而创建一个无限系列。结果只是在Pi系列之后每秒生成一个数字。这是我通过互联网筛选的结果:这是流行的计算机友好算法，类机器算法:defarccot(x,unity)xpow=unity/xn=1sign=1sum=0loopdoterm=xpow/nbreakifterm==0sum+=sign*(xpow/n)xpow/=x*xn+=2sign=-signendsumenddefcalc_pi(digits
ruby - 使用 ruby 和 savon 的 SOAP 服务 - 2
我正在尝试使用ruby和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封，在我看来soap请求没有正确的命名空间。任何人都可以建议我
python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗？当我运行compasswatch时，它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行？文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们？我自己编译的.sass文件编译成compiled/t
ruby - 使用 ruby 将 HTML 转换为纯文本并维护结构/格式 - 2
我想将html转换为纯文本。不过，我不想只删除标签，我想智能地保留尽可能多的格式。为插入换行符标签，检测段落并格式化它们等。输入非常简单，通常是格式良好的html(不是整个文档，只是一堆内容，通常没有anchor或图像)。我可以将几个正则表达式放在一起，让我达到80%，但我认为可能有一些现有的解决方案更智能。最佳答案首先，不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案，它会随着HTML的变化而崩溃，或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h

python - 如何在 Rpy2 中使用 pandas 数据帧和 numpy 数组？

有关python - 如何在 Rpy2 中使用 pandas 数据帧和 numpy 数组？的更多相关文章

随机推荐