草庐IT

Read-Replica

全部标签

python - 使用 pandas.read_csv 设置标题

我有一个csv文件,我使用pandasAPI将其读入数据框。我打算设置自己的标题而不是默认的第一行。(我也摆脱了一些行。)我如何最好地实现这一目标?我尝试了以下方法,但没有按预期工作:header_row=['col1','col2','col3','col4','col1','col2']#notetheheaderhasduplicatecolumnvaluesdf=pandas.read_csv(csv_file,skiprows=[0,1,2,3,4,5],names=header_row)这给出了以下错误-File"third_party/py/pandas/io/parse

python - 在 Pandas read_csv 期间标记化数据时出错。如何真正看到坏线?

我有一个很大的csv,我按如下方式加载df=pd.read_csv('my_data.tsv',sep='\t',header=0,skiprows=[1,2,3])我在加载过程中遇到了几个错误。首先,如果我不指定warn_bad_lines=True,error_bad_lines=False,我会得到:Errortokenizingdata.Cerror:Expected22fieldsinline329867,saw24其次,如果我使用上面的选项,我现在得到:CParserError:Errortokenizingdata.Cerror:EOFinsidestringstarti

python - to_excel() read_excel() 出现 Pandas Unicode 导入导出错误

早上好。我将一个更大的情况浓缩为以下内容:我有一个包含数据框的文件,其中包含一些值。df=pd.DataFrame({'joe':[['dog'],['cat'],['fish'],['rabbit']],'ben':[['dog'],['fish'],['fish'],['bear']]})df:benjoe0[dog][dog]1[fish][cat]2[fish][fish]3[bear][rabbit]此数据框中包含的数据类型如下:type(df.iloc[2,1]),df.iloc[2,1]>>>(list,['fish'])当我使用pd.to_excel()将数据框保存到e

python - 模组安全 : Output filter: Failed to read bucket (rc 104): Connection reset by peer

我正在向使用django和活塞上传文件的休息服务发出POST请求,但是当我发出请求时,我得到这个(奇怪的?)错误:[SunJul0416:12:382010][error][client79.39.191.166]ModSecurity:Outputfilter:Failedtoreadbucket(rc104):Connectionresetbypeer[hostname"url"][uri"/api/odl/"][unique_id"TDEVZEPNBIMAAGLwU9AAAAAG"]这是什么意思?我该如何调试它? 最佳答案 O

python - Pandas read_sql() 可以返回哪些异常

我有一个用户定义的函数,它使用pymysql连接到mysql数据库,然后查询数据库并将结果读入Pandas数据帧。importpandasaspdimportpymysqlimportgetpassdefmyGetData(myQuery):myServer='xxx.xxx.xxx.xxx'myUser=input("EnterMySQLdatabaseusername:")myPwd=getpass.getpass("Enterpassword:")myConnection=pymysql.connect(host=myServer,user=myUser,password=myP

python - Pandas read_csv 加速

我正在读取一个大型csv,它有大约1000万行和20个不同的列(带有标题名称)。我有值,2列带有日期和一些字符串。目前我需要大约1.5分钟来加载这样的数据:df=pd.read_csv('data.csv',index_col='date',parse_dates='date')我想问一下,我怎样才能使它更快,读取数据后具有相同的数据帧。我尝试使用HDF5数据库,但速度同样慢。我尝试读取的数据子集(我选择了8列,并从实际的20列和几百万行中给出了3行):DateCompRatingPriceEstpriceDividend?Date_earningsReturns3/12/2017Ap

Python:os.read()/os.write() 在 os.pipe() 线程安全吗?

考虑:pipe_read,pipe_write=os.pipe()现在,我想知道两件事:(1)我有两个线程。如果我保证只有一个正在读取os.read(pipe_read,n)而另一个只在写入os.write(pipe_write),我会不会有任何问题,即使如果两个线程同时做呢?我会得到所有以正确顺序写入的数据吗?如果他们同时做会怎样?是否有可能将单个写入分段读取,例如?:Thread1:os.write(pipe_write,'1234567')Thread2:os.read(pipe_read,big_number)-->'123'Thread2:os.read(pipe_read,

python - libpng 警告 : interlace handling should be turned on when using png_read_image in Python/PyGame

我正在使用PyGameforPython,并且在使用pygame.image.load加载.png图像时收到以下警告:libpngwarning:Interlacehandlingshouldbeturnedonwhenusingpng_read_image它不影响程序,但变得特别烦人。我在网上搜索了一个无济于事的答案。我目前正在使用32位Python3.3和PyGame1.9.2关于如何让警告消失的任何想法? 最佳答案 我遇到了同样的问题。这似乎是旧版libpng的一些错误(有关详细信息,请参阅http://sourceforge

python - pandas.read_html 不支持十进制逗号

我正在使用pandas.read_html读取一个xlm文件并且几乎完美地工作,问题是该文件使用逗号作为小数点分隔符而不是点(read_html中的默认值>).我可以很容易地用一个文件中的点替换逗号,但我有将近200个文件具有该配置。使用pandas.read_csv您可以定义小数点分隔符,但我不知道为什么在pandas.read_html中您只能定义千位分隔符。在这件事上有什么指导吗?还有另一种方法可以在pandas打开之前自动替换逗号/点?提前致谢! 最佳答案 在我同时使用decimal=','和thousands='之前,这对

python - Pandas 的 read_csv 总是在小文件上崩溃

我正在尝试导入一个相当小(217行,87列,15k)csv文件以在Python中进行分析使用Pandas。该文件的结构很差,但我仍想导入它,因为它是我不想在Python之外手动操作的原始数据(例如使用Excel)。不幸的是,它总是导致崩溃“内核似乎已经死了。它会自动重启”。https://www.wakari.io/sharing/bundle/uniquely/ReadCSV做了一些研究表明read_csv可能会崩溃,但总是针对非常大的文件,因此我不明白这个问题。使用本地安装(Anaconda64位、IPython(Py2.7)Notebook)和Wakari时都会发生崩溃。有人能帮