草庐IT

read_buffer

全部标签

python - 在 read_csv 之后选择 pandas 数据框中的列时出现关键错误

我正在尝试将CSV文件读入pandas数据框并选择一列,但不断出现关键错误。文件读取成功,我可以在iPythonnotebook中查看数据框,但是当我想选择第一列以外的任何列时,它会抛出一个关键错误。我正在使用这段代码:importpandasaspdtransactions=pd.read_csv('transactions.csv',low_memory=False,delimiter=',',header=0,encoding='ascii')transactions['quarter']这是我正在处理的文件:https://www.dropbox.com/s/81iwm4f2h

python - Pandas .read_csv FileNotFoundError : File b'\xe2\x80\xaa<etc>' despite correct path

我尝试使用pd.read_csv()函数加载.csv文件时遇到错误,尽管文件路径正确且使用原始字符串.importpandasaspddf=pd.read_csv('‪C:\\Users\\user\\Desktop\\datafile.csv')df=pd.read_csv(r'‪C:\Users\user\Desktop\datafile.csv')df=pd.read_csv('C:/Users/user/Desktop/datafile.csv')全部给出以下错误:FileNotFoundError:Fileb'\xe2\x80\xaaC:/Users/user/Desktop

python - 当使用 "pandas.read_hdf() "读取巨大的 HDF5 文件时,为什么我仍然得到 MemoryError 即使我通过指定 block 大小读取 block ?

问题描述:我使用pythonpandas读取几个大的CSV文件并将其存储在HDF5文件中,生成的HDF5文件大约为10GB。回读时出现问题。即使我尝试分block读回它,我仍然会遇到MemoryError。这是我创建HDF5文件的方式:importglob,osimportpandasaspdhdf=pd.HDFStore('raw_sample_storage2.h5')os.chdir("C:/RawDataCollection/raw_samples/PLB_Gate")forfilenameinglob.glob("RD_*.txt"):raw_df=pd.read_csv(f

python - 在 pandas read_csv 中自定义分隔符

我正在将许多不同的数据文件读取到各种pandas数据框中。这些数据文件中的列由空格分隔。但是,对于每个文件,空格的数量是不同的(其中一些只有一个空格,另一些则有两个空格等等)。因此,每次导入文件时,我都必须手动转到该文件并查看已使用的空格数,并在sep中提供这些空格数:importpandasaspddf=pd.read_csv('myfile.dat',sep='')有什么方法可以让pandas假定“任意数量的空格”作为分隔符?另外,有什么方法可以让pandas使用制表符(\t)或空格作为分隔符? 最佳答案 是的,您可以使用像se

python - create_string_buffer 抛出错误 TypeError : str/bytes expected instead of str instance

我正在尝试这个简单的ctypes示例并得到提到的错误>>>fromctypesimportcreate_string_buffer>>>str=create_string_buffer("hello")Traceback(mostrecentcalllast):File"",line1,inFile"C:\Python32\lib\ctypes\__init__.py",line59,increate_string_bufferbuf.value=initTypeError:str/bytesexpectedinsteadofstrinstance有谁知道我做错了什么吗?同样,我试图将

python ,子进程: reading output from subprocess

我有以下脚本:#!/usr/bin/pythonwhileTrue:x=raw_input()printx[::-1]我从ipython调用它:In[5]:p=Popen('./script.py',stdin=PIPE)In[6]:p.stdin.write('abc\n')cba而且效果很好。但是,当我这样做时:In[7]:p=Popen('./script.py',stdin=PIPE,stdout=PIPE)In[8]:p.stdin.write('abc\n')In[9]:p.stdout.read()解释器挂起。我究竟做错了什么?我希望能够多次从另一个进程写入和读取,以将一

python - 谷歌 Protocol Buffer 在 python 中很大

我开始使用ProtocolBuffer库,但注意到它占用了大量内存。pympler.asizeof显示我的一个对象大约是76k!基本上,它包含一些字符串、一些数字和一些枚举,以及一​​些相同的可选列表。如果我正在编写与C结构相同的东西,我希望它小于几百个字节,并且实际上ByteSize方法返回121(序列化字符串的大小)。这是您对图书馆的期望吗?我听说它很慢,但这无法使用,让我更倾向于相信我在滥用它。编辑这是我构建的示例。这是一个类似的pb文件,但比我一直使用的更简单packagepb;messageA{requireddoublea=1;}messageB{requireddoubl

python - 进程结束,退出代码为 -1073740791 (0xC0000409) STATUS_STACK_BUFFER_OVERRUN

为了测试一个小程序。所有包都更新到最新版本。我的Python版本是3.6.4,我在Windowsx64上运行。我浏览了所有建议更新NVIDIA驱动程序的相关线程的解决方案,但我有一个Intel驱动程序。我是Python、Tensorflow和Pycharm的新手。这是记录的错误:Faultingapplicationname:python.exe,version:3.6.4150.1013,timestamp:0x5a38b889Faultingmodulename:ucrtbase.dll,version:10.0.16299.248,timestamp:0xe71e5dfeExce

python - 6.5 GB 文件上的 Pandas read_csv 消耗超过 170GB RAM

我想提出来,只是因为它太疯狂了。也许韦斯有一些想法。该文件非常规则:1100行x~3M列,数据以制表符分隔,仅由整数0、1和2组成。显然这不是预期的。如果我如下预填充数据框,它会消耗约26GB的RAM。h=open("ms.txt")header=h.readline().split("\t")h.close()rows=1100df=pd.DataFrame(columns=header,index=range(rows),dtype=int)系统信息:python2.7.9ipython2.3.1numpy1.9.1Pandas0.15.2.欢迎任何想法。

python - pd.read_hdf 抛出 'cannot set WRITABLE flag to True of this array'

运行时pd.read_hdf('myfile.h5')我收到以下回溯错误:[[...somelongertraceback]]~/.local/lib/python3.6/site-packages/pandas/io/pytables.pyinread_array(self,key,start,stop)24872488ifisinstance(node,tables.VLArray):->2489ret=node[0][start:stop]2490else:2491dtype=getattr(attrs,'value_type',None)~/.local/lib/python3