apply

python - 清理一列字符串并添加新列的更有效方法

我有一个数据框df，其中包含列['metric_type','metric_value']。对于每一行，我想确保我有一个名称等于'metric_type'且该列的值等于'metric_value'的列。我的一个问题是'metric_type'有我想去掉的虚假空格。考虑数据框df:df=pd.DataFrame([['a',1],['b',2],['c',3]],columns=['metric_type','metric_value'])print(df)metric_typemetric_value0a11b22c3请注意，'metric_type'的每个值在不同的地方都有空格。我创

python 清理 metric code metric_type pandas apply

python - Pandas 应用于 dataframe 产生 '<built-in method values of ...'

我正在尝试构建一个GeoJSONobject.我的输入是一个包含地址列、纬度列和经度列的csv。然后，我从坐标中创建了Shapely点，将它们缓冲给定半径，并通过映射选项获取坐标字典-到目前为止，一切顺利。然后，引用thisquestion之后，我编写了以下函数来获取一系列词典:defmake_geojson(row):return{'geometry':row['geom'],'properties':{'address':row['address']}}我这样应用它:data['new_output']=data.apply(make_geojson,axis=1)我的结果列中充满

amp dataframe 39 data code python pandas apply geojson shapely

python - 如何使用天数作为 pandas rolling_apply 函数的窗口

我有一个日期间隔不规则的Pandas数据框。有没有办法用7天作为移动窗口来计算medianabsolutedeviation，中位数等..？我觉得我可以以某种方式使用pandas.rolling_apply但它不会为window参数采用不规则间隔的日期。我找到了类似的帖子https://stackoverflow.com/a/30244019/3128336并且我正在尝试创建我的自定义函数，但仍然无法弄清楚..任何人都可以帮忙吗？importpandasaspdfromdatetimeimportdatetimeperson=['A','B','C','B','A','C','A','

rolling_apply rolling 2000 datetime 39 python pandas time-series

python - 如何在不添加额外索引的情况下使用 Pandas groupby apply()

我经常想通过组合分组DataFrame的多个列来创建一个新的DataFrame。apply()函数允许我这样做，但它要求我创建一个不需要的索引:In[359]:df=pandas.DataFrame({'x':3*['a']+2*['b'],'y':np.random.normal(size=5),'z':np.random.normal(size=5)})In[360]:dfOut[360]:xyz0a0.201980-0.4703881a0.190846-2.0890322a-1.1310100.2278593b-0.263865-1.9065754b-1.335956-0.722

何在 groupby x.y x.z 39 python pandas apply

使用 rolling_apply 的 Python 自定义函数用于 pandas

我想使用pandas.rolling_apply函数在滚动窗口的基础上应用我自己的自定义函数。但是我的函数需要两个参数，并且还有两个输出。这可能吗？下面是一个最小的可重现示例...importpandasaspdimportnumpyasnpimportrandomtmp=pd.DataFrame(np.random.randn(2000,2)/10000,index=pd.date_range('2001-01-01',periods=2000),columns=['A','B'])defgm(df,p):v=(((df+1).cumprod())-1)*preturnv.iloc[

自定 rolling_apply 2006 code section python pandas

python - Pandas 滚动应用自定义

我一直在关注类似的答案here，但是我在使用sklearn和rollingapply时有一些问题。我正在尝试创建z-scores并通过滚动应用进行PCA，但我一直收到'onlylength-1arrayscanbeconvertedtoPythonscalars'错误。按照前面的示例，我创建了一个数据框fromsklearn.preprocessingimportStandardScalerimportpandasaspdimportnumpyasnpsc=StandardScaler()tmp=pd.DataFrame(np.random.randn(2000,2)/10000,in

自定 python code pre rolling pandas apply

python - 如何将多个参数传递给 apply 函数

我有一个名为counting的方法，它有两个参数。我需要使用apply()方法调用此方法。但是，当我将这两个参数传递给apply方法时，出现以下错误:TypeError:counting()takesexactly2arguments(1given)我看到了以下帖子pythonpandas:applyafunctionwithargumentstoaseries.Update而且我不想使用functool.partial，因为我不想导入其他类来传递参数。defcounting(dic,strWord):ifstrWordindic:returndic[strWord]else:retu

传递 python code 39 column python-3.x pandas

python - 计算 DataFrame 每一行中 Series 中项目的出现次数

我有一个看起来像这样的pandas.DataFrame。COL1COL2COL3C1NoneNoneC1C2NoneC1C1NoneC1C2C3对于此数据框中的每一行，我想计算每个C1、C2、C3的出现次数，并将此信息作为列附加到此数据框中。例如，第一行有1个C1、0个C2和0个C3。最终的数据框应该是这样的COL1COL2COL3C1C2C3C1NoneNone100C1C2None110C1C1None200C1C2C3111因此，我创建了一个以C1、C2和C3作为值的系列-topcount的一种方法是遍历DataFrame的行和列，然后遍历该系列并在匹配时递增计数器。但是是否有一

DataFrame python code section None pandas apply

python pool apply_async 和 map_async 不会在完整队列上阻塞

我是python的新手。我正在使用multiprocessing模块读取stdin上的文本行，以某种方式转换它们并将它们写入数据库。这是我的代码片段:batch=[]pool=multiprocessing.Pool(20)i=0fori,contentinenumerate(sys.stdin):batch.append(content)iflen(batch)>=10000:pool.apply_async(insert,args=(batch,i+1))batch=[]pool.apply_async(insert,args=(batch,i))pool.close()pool.

async apply_async code python design-patterns queue multiprocessing python-multiprocessing

多个数组的Python apply_along_axis

如果我有一个函数f(x)，它接受一个一维数组作为参数并生成一个一维数组作为输出，我可以使用numpy.apply_along_axis将函数应用于二维数组X的每一行，其行是f的有效参数。现在我想用一个带有两个参数的函数来做类似的事情。例如。我有一个函数f(x,y)，它将两个一维数组作为参数，我还有两个二维数组X、Y，它们都有n行。我想将f应用于每一对行，生成一个又包含n行的数组。如何以高效的方式实现这一目标？我也对变体感兴趣，其中f接受更多参数或涉及更高维数组:例如f可以取3个形状为(2,2)的数组x,y,z；(3,);(5,)并产生形状(4,4)的结果。我有X、Y、Z形状(50,10

apply_along_axis Python code section result numpy

18 19 202122 23 24