草庐IT

series-line

全部标签

python - 简单的正则表达式问题 : Removing all new lines from a file

我正在熟悉Python,并且正在制造一些问题以帮助自己了解该语言的来龙去脉。我的下一个问题如下:我从互联网上复制并粘贴了大量文本,但复制和粘贴添加了几行新行来分解巨大的字符串。我希望以编程方式删除所有这些并将字符串返回到一个巨大的字符block中。这显然是正则表达式的工作(我认为),并且解析文件并删除换行符的所有实例听起来像是可行的,但对我来说似乎并没有那么顺利。有没有简单的方法来解决这个问题?看起来很简单。 最佳答案 两种主要选择:将所有内容作为单个字符串读取并删除换行符:clean=open('thefile.txt').rea

python - 将 pandas.Series 从 dtype 对象转换为 float ,将错误转换为 nans

考虑以下情况:In[2]:a=pd.Series([1,2,3,4,'.'])In[3]:aOut[3]:011223344.dtype:objectIn[8]:a.astype('float64',raise_on_error=False)Out[8]:011223344.dtype:object我希望有一个选项允许在将错误值(例如.)转换为NaN时进行转换。有没有办法做到这一点? 最佳答案 使用pd.to_numeric使用errors='coerce'#Setups=pd.Series(['1','2','3','4','.'

python - 将 pandas.Series 从 dtype 对象转换为 float ,将错误转换为 nans

考虑以下情况:In[2]:a=pd.Series([1,2,3,4,'.'])In[3]:aOut[3]:011223344.dtype:objectIn[8]:a.astype('float64',raise_on_error=False)Out[8]:011223344.dtype:object我希望有一个选项允许在将错误值(例如.)转换为NaN时进行转换。有没有办法做到这一点? 最佳答案 使用pd.to_numeric使用errors='coerce'#Setups=pd.Series(['1','2','3','4','.'

python - 为什么 numpy.power 比 in-lining 慢 60 倍?

也许我在做一些奇怪的事情,但在使用numpy时可能会发现令人惊讶的性能损失,无论使用何种功率似乎都是一致的。例如当x是一个随机的100x100数组时x=numpy.power(x,3)比慢大约60倍x=x*x*x各种阵列大小的加速图显示了阵列大小约为10k的最佳点,而其他大小的阵列则一致地加速了5-10倍。在你自己的机器上测试下面的代码(有点乱):importnumpyasnpfrommatplotlibimportpyplotaspltfromtimeimporttimeratios=[]sizes=[]forninnp.logspace(1,3,20).astype(int):a=

python - 为什么 numpy.power 比 in-lining 慢 60 倍?

也许我在做一些奇怪的事情,但在使用numpy时可能会发现令人惊讶的性能损失,无论使用何种功率似乎都是一致的。例如当x是一个随机的100x100数组时x=numpy.power(x,3)比慢大约60倍x=x*x*x各种阵列大小的加速图显示了阵列大小约为10k的最佳点,而其他大小的阵列则一致地加速了5-10倍。在你自己的机器上测试下面的代码(有点乱):importnumpyasnpfrommatplotlibimportpyplotaspltfromtimeimporttimeratios=[]sizes=[]forninnp.logspace(1,3,20).astype(int):a=

python - pandas.read_csv : how to skip comment lines

我想我误解了read_csv的意图。如果我有一个像'j'这样的文件#notesa,b,c#morenotes1,2,3我怎样才能pandas.read_csv这个文件,跳过任何“#”注释行?我在帮助中看到不支持行的“注释”,但它表明应该返回一个空行。我看到一个错误df=pandas.read_csv('j',comment='#')CParserError:标记数据时出错。C错误:第2行中应有1个字段,看到3我现在在In[15]:pandas.__version__Out[15]:'0.12.0rc1'在版本'0.12.0-199-g4c8ad82'上:In[43]:df=pandas

python - pandas.read_csv : how to skip comment lines

我想我误解了read_csv的意图。如果我有一个像'j'这样的文件#notesa,b,c#morenotes1,2,3我怎样才能pandas.read_csv这个文件,跳过任何“#”注释行?我在帮助中看到不支持行的“注释”,但它表明应该返回一个空行。我看到一个错误df=pandas.read_csv('j',comment='#')CParserError:标记数据时出错。C错误:第2行中应有1个字段,看到3我现在在In[15]:pandas.__version__Out[15]:'0.12.0rc1'在版本'0.12.0-199-g4c8ad82'上:In[43]:df=pandas

python - Pandas groupby.size vs series.value_counts vs collections.Counter与多个系列

有很多问题(1、2、3)涉及单个系列中的计数值。但是,关于计数两个或多个系列的组合的最佳方法的问题较少。提出了解决方案(1,2),但没有讨论何时以及为什么应该使用它们。以下是对三种潜在方法的一些基准测试。我有两个具体问题:为什么grouper比count更高效?我希望count效率更高,因为它是在C中实现的。即使列数从2增加到4,grouper的卓越性能仍然存在。为什么value_counter比grouper差这么多?这是由于构建列表或从列表中构建系列的成本吗?我知道输出是不同的,这也应该通知选择。例如,使用连续的numpy数组与字典推导相比,按计数过滤更有效:x,z=grouper

python - Pandas groupby.size vs series.value_counts vs collections.Counter与多个系列

有很多问题(1、2、3)涉及单个系列中的计数值。但是,关于计数两个或多个系列的组合的最佳方法的问题较少。提出了解决方案(1,2),但没有讨论何时以及为什么应该使用它们。以下是对三种潜在方法的一些基准测试。我有两个具体问题:为什么grouper比count更高效?我希望count效率更高,因为它是在C中实现的。即使列数从2增加到4,grouper的卓越性能仍然存在。为什么value_counter比grouper差这么多?这是由于构建列表或从列表中构建系列的成本吗?我知道输出是不同的,这也应该通知选择。例如,使用连续的numpy数组与字典推导相比,按计数过滤更有效:x,z=grouper

python - 是否可以在不先列出列表的情况下将 Series 附加到 DataFrame 行?

我有一些数据正试图组织到Pandas中的DataFrame中。我试图使每一行成为Series并将其附加到DataFrame。我找到了一种方法,方法是将Series附加到空list然后转换Series的list到DataFrame例如DF=DataFrame([series1,series2],columns=series1.index)这个list到DataFrame的步骤似乎是多余的。我在这里查看了一些示例,但没有一个Series保留了Series中的Index标签以将它们用作列标签。列是id_names而行是type_names的路很长:是否可以在不先创建列表的情况下将Series