草庐IT

pyhton_Pandas

全部标签

python - Pandas :保存到 excel 编码问题

我遇到了与提到的问题类似的问题here但是建议的方法都不适合我。我有一个中等大小的utf-8.csv文件,其中包含很多非ascii字符。我将文件按其中一列的特定值拆分,然后我想将每个获得的数据帧保存为.xlsx文件,并保留字符。这不起作用,因为我收到一个错误:UnicodeDecodeError:'ascii'codeccan'tdecodebyte0xffinposition7:ordinalnotinrange(128)这是我尝试过的:明确使用xlsxwriter引擎。这似乎没有任何改变。定义一个函数(如下)来更改编码并丢弃不良字符。这也不会改变任何东西。defchangeenco

python - Pandas 读取 sql 整数变成 float

我遇到一个问题,当我使用pandas读取Mysql表时,一些列(见'to_nlc')以前是整数变成了float(之后自动添加.0)。任何人都可以弄清楚吗?还是一些猜测?非常感谢! 最佳答案 问题是您的数据包含NaN值,因此int会自动转换为float。我想你可以检查NAtypepromotions:WhenintroducingNAsintoanexistingSeriesorDataFrameviareindexorsomeothermeans,booleanandintegertypeswillbepromotedtoadiff

python - 无法设置 Pandas 数据框的索引 - 获取 "KeyError"

我生成了一个如下所示的数据框(summaryDF):accuracyf1precisionrecall00.4940.7224330.7224330.72243300.2900.8260870.8260870.82608700.2740.6296300.6296300.62963000.2780.6285710.6285710.62857100.2880.7187500.7187500.71875000.7400.7400000.7400000.74000000.6980.7651330.7651330.76513300.5820.7785470.7785470.77854700.68

python - Pandas 中具有相同名称的多个列

我正在从CSV文件创建一个dataframe。我已经浏览了文档、多个SO帖子和链接,因为我刚开始使用Pandas但没有得到它。CSV文件有多个名称相同的列,例如a。所以在形成dataframe之后,当我执行df['a']时,它会返回哪个值?它不会返回所有值。此外,只有一个值有一个字符串,其余的将为None。我怎样才能得到那个专栏? 最佳答案 相关参数是mangle_dupe_cols来自docsmangle_dupe_cols:boolean,defaultTrueDuplicatecolumnswillbespecifiedas'

python - 属性错误 : module 'pandas' has no attribute 'read_csv' Python3. 5

长期以来,我一直在成功使用pandas.read_csv,但在我尝试读取csv文件时突然开始出现错误df=pd.read_csv('file.csv',encoding='utf-8')错误是AttributeError:module'pandas'hasnoattribute'read_csv'我试过升级pandas但没有用。我试图搜索并得到thisanswer但是当我在我的Pandas中搜索csv.py文件时,我没有找到任何文件。所以我试图将鼠标悬停在pandas.read_csv方法上,该方法将我带到parsers.py文件。但是在该文件中没有名为read_csv的特定方法,但它

python - Pandas Dataframe 线图在 x 轴上显示日期

比较下面的代码:test=pd.DataFrame({'date':['20170527','20170526','20170525'],'ratio1':[1,0.98,0.97]})test['date']=pd.to_datetime(test['date'])test=test.set_index('date')ax=test.plot()我在最后添加了DateFormatter:test=pd.DataFrame({'date':['20170527','20170526','20170525'],'ratio1':[1,0.98,0.97]})test['date']=pd

python - 将 Pandas (多)索引解析为日期时间

我有如下多索引dfxyiddateabc3/1/199410079/1/19949083/1/1995809日期存储为str。我想解析日期索引。以下声明df.index.levels[1]=pd.to_datetime(df.index.levels[1])返回错误:TypeError:'FrozenList'doesnotsupportmutableoperations. 最佳答案 如前所述,您必须重新创建索引:df.index=df.index.set_levels([df.index.levels[0],pd.to_datet

python - 将 Pandas 数据框附加到 Google 电子表格

案例:我的脚本返回一个数据框,该数据框必须作为新数据行附加到现有的谷歌电子表格中。截至目前,我通过gspread将数据框附加为多个单行。我的代码:importgspreadimportpandasaspddf=pd.DataFrame()#Aftersomeprocessinganon-emptydataframehasbeencreated.output_conn=gc.open("SheetName").worksheet("xyz")#Here'SheetName'isgooglespreadsheetand'xyz'issheetintheworkbookfori,rowind

python - 在 Pandas 的多列上应用自定义函数

我在Pandas中“应用”自定义函数时遇到问题。当我测试该函数时,直接传递它起作用的值并正确返回响应。但是,当我尝试以这种方式传递列值时deffeez(rides,plan):pmt4=200inc4=50#numberridesincludedmin_rate4=4ifplan=="4Plan":ifrides>inc4:fee=((rides-inc4)*min_rate4)+pmt4else:fee=pmt4return(fee)else:return0.1df['fee'].apply(feez(df.total_rides,df.plan_name))我收到错误:“Serie

python - 所有 Pandas 细胞的词形还原

我有一个Pandas数据框。有一列,我们将其命名为:'col'此列的每个条目都是一个单词列表。['word1'、'word2'等]如何使用nltk库有效地计算所有这些词的引理?importnltknltk.stem.WordNetLemmatizer().lemmatize('word')我希望能够为pandas数据集的一列中所有单元格的所有单词找到一个引理。我的数据类似于:importpandasaspddata=[[['walked','am','stressed','Fruit']],[['going','gone','walking','riding','running']]]