草庐IT

panda_link

全部标签

python - Pandas 数据框中值的组合

这是我的Pandas数据框:ItemSupport_Count0BREAD41MILK42DIAPER43BEER3我将如何从第1列“项目”中生成2组和3组项目的所有可能的唯一组合。示例(2项集):(面包,牛奶),(面包,尿布),(面包,啤酒),(牛奶,尿布)等示例(3个项目集):(BREAD,MILK,DIAPER),(BREAD,MILK,BEER),(MILK,DIAPER,BEER)等 最佳答案 您可以使用itertools库:importitertoolslist(itertools.combinations(df['It

python - 使用 Pandas 为 Scikit-Learn 准备 CSV 文件数据?

我有一个没有标题的csv文件,我正在使用pandas将其导入python。最后一列是目标类,其余列是图像的像素值。我如何继续使用pandas(80/20)将此数据集拆分为训练集和测试集?此外,一旦完成,我将如何拆分这些集合中的每一个,以便我可以定义x(除最后一列之外的所有列)和y(最后一列)?我使用以下方法导入了我的文件:dataset=pd.read_csv('example.csv',header=None,sep=',')谢谢 最佳答案 我建议使用sklearn的train_test_splitfromsklearn.mode

python - 将列表绑定(bind)到 Pandas read_sql_query 中的参数和其他参数

我一直在尝试测试使我的代码运行的各种方法。首先,我有这个列表:member_list=[111,222,333,444,555,...]我试图将它传递到这个查询中:query=pd.read_sql_query("""selectmemberid,yearmonthfromqueried_tablewhereyearmonthbetween?and?andmember_idin?""",db2conn,params=[201601,201603,member_list])但是,我收到一条错误消息:'Invalidparametertype.param-index=2param-type

python - 从列表的数据框列中搜索部分字符串匹配 - Pandas - Python

我有一个列表:things=['A1','B2','C3']我有一个pandas数据框,其中一列包含用分号分隔的值-一些行将包含与上面列表中的一项的匹配项(它不会是完美匹配,因为它有其他部分列中的字符串。例如,该列中的一行可能有'Wow;Here;This=A1;10001;0')我想保存包含与列表中项目匹配的行,然后用这些选定的行创建一个新的数据框(应该有相同的标题)。这是我尝试过的:importrefor_new_df=[]forxindf['COLUMN']:formpinthings:ifdf[df['COLUMN'].str.contains(mp)]:for_new_df.

python - 从 Pandas 中的过滤结果创建 bool 掩码

这个问题在这里已经有了答案:Selectingwithcomplexcriteriafrompandas.DataFrame(5个答案)关闭6年前。我知道如何在查询单个列时创建掩码来过滤数据框:importpandasaspdimportdatetimeindex=pd.date_range('2013-1-1',periods=100,freq='30Min')data=pd.DataFrame(data=list(range(100)),columns=['value'],index=index)data['value2']='A'data['value2'].loc[0:10]=

python - 日志文件到 Pandas Dataframe

我有日志文件,其中有很多行的形式:LogLevel[13/10/201500:30:00.650][MessageText]我的目标是将日志文件中的每一行转换成一个漂亮的数据框。我已经厌倦了这样做,通过拆分[字符上的行,但是我仍然没有得到一个整洁的数据框。我的代码:level=[]time=[]text=[]withopen(filename)asinf:forlineininf:parts=line.split('[')iflen(parts)>1:level=parts[0]time=parts[1]text=parts[2]print(parts[0],parts[1],part

python - Pandas 海峡计数

考虑以下数据框。我想计算字符串中出现的“$”的数量。我在pandas(http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.str.count.html)中使用str.count函数。>>>importpandasaspd>>>df=pd.DataFrame(['$$a','$$b','$c'],columns=['A'])>>>df['A'].str.count('$')011121Name:A,dtype:int64我原以为结果是[2,2,1]。我究竟做错了什么?在Python中,string模块中的

python - 将 API 转换为 Pandas DataFrame

我想将API调用转换为pandasdataframe。此刻,API非常杂乱无章,我想合并pandas以使其更易于阅读/编辑/操作。我尝试了以下操作:r=requests.get('http://api.football-data.org/v1/competitions/398/teams')x=r.json()df=pd.read_json(x)printdf但收到:TypeError:ExpectedStringorUnicode 最佳答案 pd.read_json需要一个字符串。但是,r.json()返回一个字典对象。在您的情况

python - self 加入 Pandas

我想对Pandas数据框执行自连接,以便将某些行附加到原始行。每行都有一个标记“i”,指示应在右侧附加哪一行。d=pd.DataFrame(['A','B','C'],columns=['some_col'])d['i']=[2,1,1]In[17]:dOut[17]:some_coli0A21B12C1期望的输出:some_colisome_col_y0A2C1B1B2C1B也就是说,第2行附加到第0行,第1行附加到第1行,第1行附加到第2行(如i所示)。我的想法是pd.merge(d,d,left_index=True,right_on='i',how='left')但它会产生完全

python - 在 groupby pandas 之后过滤行

我在Pandas中有一张table:importpandasaspddf=pd.DataFrame({'LeafID':[1,1,2,1,3,3,1,6,3,5,1],'pidx':[10,10,300,10,30,40,20,10,30,45,20],'pidy':[20,20,400,20,15,20,12,43,54,112,23],'count':[10,20,30,40,80,10,20,50,30,10,70],'score':[10,10,10,22,22,3,4,5,9,0,1]})LeafIDcountpidxpidyscore01101020101120102010