pandas-explode

python - 为什么在一种情况下 pandas 数据框的一列中的值变化快而在另一种情况下变化慢？

我有两段代码似乎做同样的事情，但其中一段比另一段快将近一千倍。这是第一部分:t1=time.time()df[new_col]=np.where(df[col]在ts我有这样的值:0.0007321834564208984,0.0002918243408203125,0.0002799034118652344相比之下，这部分代码:t1=time.time()df['new_col']=np.where((df[col]>=i1)&(df[col]创建ts并填充如下值:0.11008906364440918,0.09556794166564941,0.08580684661865234我

python - 将数字和字母的字符串转换为 pandas 数据框中的 int/float

我觉得必须有一个快速解决我的问题的方法，我使用多个列表理解破解了一个实现不佳的解决方案，这无论如何都不理想。也许有人可以在这里帮忙。我有一组字符串值(例如3.2B、1.5M、1.1T)，其中最后一个字符自然表示百万、十亿、万亿。在该集合中，还有NaN/'none'值应保持不变。我希望将它们转换为float或整数，因此在给定的示例中(3200000000,1500000,1100000000000)TIA 最佳答案你可以创建一个函数:和applymap它到数据框中的每个条目:powers={'B':10**9,'M':10**6,'

python - 复杂的(对我来说)在 Pandas 中从宽到长 reshape

个人(索引从0到5)在两个位置之间进行选择:A和B。我的数据具有广泛的格式，其中包含因人而异的特征(ind_var)和仅因位置而异的特征(location_var)。例如，我有:In[281]:df_reshape_test=pd.DataFrame({'location':['A','A','A','B','B','B'],'dist_to_A':[0,0,0,50,50,50],'dist_to_B':[50,50,50,0,0,0],'location_var':[10,10,10,14,14,14],'ind_var':[3,8,10,1,3,4]})df_reshape_te

python - Pandas 数据框中值的组合

这是我的Pandas数据框:ItemSupport_Count0BREAD41MILK42DIAPER43BEER3我将如何从第1列“项目”中生成2组和3组项目的所有可能的唯一组合。示例(2项集):(面包，牛奶),(面包,尿布),(面包,啤酒),(牛奶,尿布)等示例(3个项目集):(BREAD,MILK,DIAPER),(BREAD,MILK,BEER),(MILK,DIAPER,BEER)等最佳答案您可以使用itertools库:importitertoolslist(itertools.combinations(df['It

python - 使用 Pandas 为 Scikit-Learn 准备 CSV 文件数据？

我有一个没有标题的csv文件，我正在使用pandas将其导入python。最后一列是目标类，其余列是图像的像素值。我如何继续使用pandas(80/20)将此数据集拆分为训练集和测试集？此外，一旦完成，我将如何拆分这些集合中的每一个，以便我可以定义x(除最后一列之外的所有列)和y(最后一列)？我使用以下方法导入了我的文件:dataset=pd.read_csv('example.csv',header=None,sep=',')谢谢最佳答案我建议使用sklearn的train_test_splitfromsklearn.mode

python - 将列表绑定(bind)到 Pandas read_sql_query 中的参数和其他参数

我一直在尝试测试使我的代码运行的各种方法。首先，我有这个列表:member_list=[111,222,333,444,555,...]我试图将它传递到这个查询中:query=pd.read_sql_query("""selectmemberid,yearmonthfromqueried_tablewhereyearmonthbetween?and?andmember_idin?""",db2conn,params=[201601,201603,member_list])但是，我收到一条错误消息:'Invalidparametertype.param-index=2param-type

python - 从列表的数据框列中搜索部分字符串匹配 - Pandas - Python

我有一个列表:things=['A1','B2','C3']我有一个pandas数据框，其中一列包含用分号分隔的值-一些行将包含与上面列表中的一项的匹配项(它不会是完美匹配，因为它有其他部分列中的字符串。例如，该列中的一行可能有'Wow;Here;This=A1;10001;0')我想保存包含与列表中项目匹配的行，然后用这些选定的行创建一个新的数据框(应该有相同的标题)。这是我尝试过的:importrefor_new_df=[]forxindf['COLUMN']:formpinthings:ifdf[df['COLUMN'].str.contains(mp)]:for_new_df.

python - 从 Pandas 中的过滤结果创建 bool 掩码

这个问题在这里已经有了答案:Selectingwithcomplexcriteriafrompandas.DataFrame(5个答案)关闭6年前。我知道如何在查询单个列时创建掩码来过滤数据框:importpandasaspdimportdatetimeindex=pd.date_range('2013-1-1',periods=100,freq='30Min')data=pd.DataFrame(data=list(range(100)),columns=['value'],index=index)data['value2']='A'data['value2'].loc[0:10]=

python - 日志文件到 Pandas Dataframe

我有日志文件，其中有很多行的形式:LogLevel[13/10/201500:30:00.650][MessageText]我的目标是将日志文件中的每一行转换成一个漂亮的数据框。我已经厌倦了这样做，通过拆分[字符上的行，但是我仍然没有得到一个整洁的数据框。我的代码:level=[]time=[]text=[]withopen(filename)asinf:forlineininf:parts=line.split('[')iflen(parts)>1:level=parts[0]time=parts[1]text=parts[2]print(parts[0],parts[1],part

python - Pandas 海峡计数

考虑以下数据框。我想计算字符串中出现的“$”的数量。我在pandas(http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.str.count.html)中使用str.count函数。>>>importpandasaspd>>>df=pd.DataFrame(['$$a','$$b','$c'],columns=['A'])>>>df['A'].str.count('$')011121Name:A,dtype:int64我原以为结果是[2,2,1]。我究竟做错了什么？在Python中，string模块中的