panda_link_草庐IT

python - 散列 Pandas 数据框中的每个值

在python中，我试图找到最快的方法来散列pandas数据框中的每个值。我知道任何字符串都可以使用:hash('astring')但我如何将这个函数应用于pandas数据框的每个元素？这可能是一件很简单的事情，但我才刚刚开始使用python。最佳答案将hash函数传递给str列上的apply:In[37]:df=pd.DataFrame({'a':['asds','asdds','asdsadsdas']})dfOut[37]:a0asds1asdds2asdsadsdasIn[39]:df['hash']=df['a'].a

python - 从 Pandas 列中提取单个值

我有一个关于提取单个列值的简单pandas问题df=DataFrame({'A':[15,56,23,84],'B':[10,20,33,25]})dfAB01510156202233338455x=df[df['A']==23]x输出AB22333但是，我只想获取B列中的值，即33。我如何获取该值？最佳答案我的首选方法是Jeff使用loc(避免处理副本通常是一种很好的做法，尤其是当您稍后可能会进行赋值时)。您可以通过不为bool掩码创建系列来获得更多性能，只需创建一个numpy数组:df=pd.DataFrame(np.ran

python - 过滤数据框的 Pandas 直方图

在过去的一个小时里，这让我很生气。我可以在使用时绘制直方图:hist(df.GVW,bins=50,range=(0,200))例如，当我需要针对其中一列中的给定条件过滤数据框时，我会使用以下命令:df[df.TYPE=='SU4']到目前为止，一切正常。当我尝试获取此过滤数据的直方图时，我收到一个关键错误:KeyError:0L。我将以下内容用于过滤数据的直方图:hist(df[df.TYPE=='SU4'].GVW,bins=50,range=(0,200))是不是哪里有语法错误？感谢您的帮助! 最佳答案也许尝试使用.valu

python - 箱线图按 python pandas 中的列分层

我想为以下pandas数据框绘制一个箱线图:>p1.head(10)N0_YLDFMAT01.2913.6712.3210.6726.2411.2935.3421.2946.3541.6755.3591.6769.3221.5276.3231.5283.3313.5294.5644.52我希望箱线图属于“N0_YLDF”列，但它们应该按“MAT”进行分层。当我使用foll时。命令:p1.boxplot(column='N0_YLDF',by='MAT')它使用所有唯一的MAT值，在完整的p1数据帧中数量约为15,000。这会导致难以理解的箱线图。有什么方法可以对MAT值进行分层，以便为

python - 通过 Pandas 数据框中的多索引选择(子集)

我想知道是否有一种干净的方法可以基于多索引选择或子集Pandas数据框。我的数据看起来像这样(id和date是索引):valuesiddate101132010-07-2124.70002010-07-2225.26002010-07-2325.28002010-07-2625.37002010-07-2725.2900102232011-07-2124.70002011-07-2225.26002011-07-2325.28002011-07-2625.37002011-07-2725.2900我想要这样的东西:df.xs[10223).xs('2011-07-21':'2011-0

python - 使用 XlsxWriter 将 pandas 图表插入 Excel 文件

我使用python3.4、pandas0.14.1和XlsxWriter0.5.6。我使用以下代码使用pandas创建了一个名为“graph”的图形graph=data_iter['_DiffPrice'].hist()，生成漂亮的直方图。现在，如何使用XlsxWriter将该图表插入到Excel文件中？我试过XlsxWriter方法workbook.add_chart()但这会在Excel中创建一个图表，而不是我想要的。谢谢最佳答案如果您想使用XlsxWriter将Pandas数据导出为Excel中的图表，请查看以下操作方法(

python - 格式化 Pandas 数据框中整数的千位分隔符

我正在尝试使用'{:,}'.format(number)来格式化pandas数据框中的数字:#Thisworksforfloatsandintegersprint'{:,}'.format(20000)#20,000print'{:,}'.format(20000.0)#20,000.0问题是，对于具有整数的数据帧不起作用，而在具有float的数据帧中工作正常。查看示例:#Doesnotwork.Theformatstaysthesame,doesnotshowthousandsseparatordf_int=DataFrame({"A":[20000,10000]})printdf_

python - 如何使用 Statsmodels 库从 Pandas 数据框创建马赛克图？

使用Python3.4、Pandas0.15和Statsmodels0.6.0，我尝试创建一个mosaicplot来自Statsmodelsdocumentation中描述的数据框.但是，我只是不明白必须如何格式化提供给mosaic()函数的输入。给定一个简单的数据框:In:myDataframe=pd.DataFrame({'size':['small','large','large','small','large','small'],'length':['long','short','short','long','long','short']})Out:lengthsize0lon

python - Pandas 中 csv 的条件行读取

我有大型CSV，其中我只对行的子集感兴趣。特别是，我想读入满足特定条件之前发生的所有行。例如，如果read_csv会产生数据帧:ABC1343.20'b'2249.21'b'3343.32'c'42424.3'c'5351.12'a'...1e9422.15'd'有没有办法读取csv中的所有行，直到colB超过10。在上面的示例中，我想读入:ABC1343.20'b'2249.21'b'3343.32'c'42424.3'c'我知道如何在读入数据帧后将这些行扔掉，但此时我已经花费了所有计算来读入它们。在读取之前我无法访问最后一行的索引csv(请不要skipfooter)

python - Pandas 将表写入 MySQL : "unable to rollback"

我需要帮助才能让它正常工作。我有一个pd.DataFrame(df)，我需要将其加载到MySQL数据库。我不明白错误消息的含义以及如何解决它。我们将不胜感激任何帮助。这是我尝试过的:importMySQLdbfrompandas.ioimportsql#METHOD1db=MySQLdb.connect(host="***",port=***,user="***",passwd="***",db="***")df.to_sql(con=db,name='forecast',if_exists='replace',flavor='mysql')##Alsotriedsql.write_f