草庐IT

sample_dataframe

全部标签

python - Python Pandas DataFrame 上的指数衰减

我正在尝试有效地计算PandasDataFrame每一列的运行总和,并以指数方式衰减。DataFrame包含世界上每个国家/地区的每日分数。数据框看起来像这样:AFUKUS2014-07-010.9980420.5957200.5246982014-07-020.3806490.8384360.3551492014-07-030.3062400.2747550.9645242014-07-040.3967210.8360270.2258482014-07-050.1512910.6777940.6035482014-07-060.5588460.0505350.5517852014-0

python - 使用 applymap 替换 Pandas Dataframe 中的空值

我有一个“年龄”列,但有时会显示NaN值。我知道我可以为此目的使用“fillna”,但我尝试定义自己的函数(并学习这样做)并将applymap用于数据框到目前为止没有成功。Age6949NaN54NaN我试过了defget_rid_of_nulls(value):ifvalue==np.nan:return'IsNullvalue'else:returnvalue这个也行不通ifvalue==Noneifvalueisnullifvalue==np.naifvalue==''ifvalue==NaNifvalue=='NaN'所有的比较似乎都不起作用。我肯定错了,但我被卡住了,我非常固

python - ValueError : This solver needs samples of at least 2 classes in the data, 但数据只包含一个类 : 1. 0

我有一个包含8670个试验的训练数据集,每个试验的长度为125个样本,而我的测试集包含578个试验。当我从scikit-learn应用SVM算法时,我得到了很好的结果。但是,当我应用逻辑回归时,出现了这个错误:"ValueError:Thissolverneedssamplesofatleast2classesinthedata,butthedatacontainsonlyoneclass:1.0".我的问题是为什么SVM能够给出预测但逻辑回归给出这个错误?有没有可能是数据集中有问题,或者只是逻辑回归无法分类,因为训练样本看起来与它相似? 最佳答案

python - 如何求和并表示一个 DataFrame 来创建另一个 DataFrame

在Name列中使用一些重复的单元格值创建DataFrame之后:importpandasaspddf=pd.DataFrame({'Name':['Will','John','John','John','Alex'],'Payment':[15,10,10,10,15],'Duration':[30,15,15,15,20]})我想继续创建另一个DataFrame,其中Name列中的重复值被合并,没有重复。同时我想要总结约翰所做的付款值(value)。我继续:df_sum=df.groupby('Name',axis=0).sum().reset_index()但是由于df.group

python - 合并 pandas DataFrames 时如何保留列 MultiIndex 值

我有两个pandasDataFrame,如下所示:df1=pd.DataFrame({('Q1','SubQ1'):[1,2,3],('Q1','SubQ2'):[1,2,3],('Q2','SubQ1'):[1,2,3]})df1['ID']=['a','b','c']df2=pd.DataFrame({'item_id':['a','b','c'],'url':['a.com','blah.com','company.com']})df1:Q1Q2IDSubQ1SubQ2SubQ10111a1222b2333cdf2:item_idurl0aa.com1bblah.com2ccom

python - Pandas DataFrame ApplyMap 方法

我想尝试PandasDataFrame对象的applymap方法的功能。这是用例:假设我的DataFramedf1如下:AgeIDName027101John122102Bob219103Alok327104Tom432105Matt519106Steve65107Tom755108Dick867109Harry现在我想创建一个标志变量,其逻辑是如果元素的长度小于2,则标志=1,否则标志=0。为了按元素运行这个,我想使用applymap方法。为此,我创建了一个用户定义的函数,如下所示:deff(x):iflen(str(x))>2:df1['Flag']=1else:df1['Flag

python - 从延迟收集创建大型 dask.dataframe 时被杀死/内存错误

我正在尝试创建一个dask.dataframe来自一堆大型CSV文件(目前有12个文件,每个文件有8-10百万行和50列)。它们中的一些可能会一起放入我的系统内存中,但它们肯定不会同时全部放入,因此使用dask而不是常规pandas。由于读取每个csv文件涉及一些额外的工作(添加包含文件路径中的数据的列),我尝试从延迟对象列表创建dask.dataframe,类似于tothisexample.这是我的代码:importdask.dataframeasddfromdask.delayedimportdelayedimportosimportpandasaspddefread_file_t

python - 按系列共享索引划分 Dataframe

我想将DataFrame除以它的其中一个列(一个系列),它们共享索引,所以我希望结果具有原始DataFrame的形状。这段代码展示了我所做的:importnumpyasnpimportpandasaspdcols=['A','B','C','D']ix=range(10)df=pd.DataFrame(index=ix,columns=cols,data=np.random.randint(0,100,size=(10,4)))print(df/df['A'])结果是这样的:0123456789ABCD0NaNNaNNaNNaNNaNNaNNaNNaNNaNNaNNaNNaNNaNNa

python - 排序 Pandas DataFrame

我有一个包含汽车数据的PandasDataframe。我想为每个制造商找到最畅销的两个模型,然后对制造商进行降序排列。MakerModelNoSold(,000s)FordKuga35FordFocus47FordKa31FordFiesta68FordMondeo55FordS-Max34FordGalaxy23NissanLeaf28NissanMicra31NissanNote43NissanPulsar23NissanJuke57NissanQashqai62NissanX-Trail38HondaJazz24HondaCivic32HondaHRV33HondaCRV29Ho

python - 如何按列和索引连接 Pandas DataFrames?

我有四个带有数字列和索引的PandasDataFrame:A=pd.DataFrame(data={"435000":[9.792,9.795],"435002":[9.825,9.812]},index=[119000,119002])B=pd.DataFrame(data={"435004":[9.805,9.783],"435006":[9.785,9.78]},index=[119000,119002])C=pd.DataFrame(data={"435000":[9.778,9.743],"435002":[9.75,9.743]},index=[119004,119006]