Dataframe

python - 在 Pandas 中找到最接近给定时间的 DataFrame 行

我有一个由DatetimeIndex索引的Pandas数据框:DatetimeIndex:53732entries,1993-01-0712:23:58to2012-12-0220:06:23Datacolumns:Date(dd-mm-yy)_Time(hh-mm-ss)53732non-nullvaluesJulian_Day53732non-nullvaluesAOT_87053732non-nullvalues440-870Angstrom53732non-nullvalues440-675Angstrom53732non-nullvalues500-870Angstrom53

给定 DataFrame code self pre python datetime pandas time-series

python - 计算 Pandas 数据框中每个特定单词的出现次数

我想计算数据框中每个特定单词的出现次数。我目前使用str.contains:a=df2[df2['col1'].str.contains("sample")].groupby('col2').size()n=a.apply(lambdax:1).sum()有没有一种方法可以匹配正则表达式并获取出现次数？在我的例子中，我有一个大数据框，我想匹配大约100个字符串。最佳答案更新:原始答案计算那些包含子字符串的行。要计算一个子字符串的所有出现次数，您可以使用.str.count:In[21]:df=pd.DataFrame(['hel

单词 python code words 39 pandas dataframe

python - 在 Pandas 数据框中使用什么 dtype 表示金钱？

所以我有一个pandas数据框对象，其中包含货币列，精确到小数点后两位，例如“133.04”。没有3位或更多小数位的数字，只有两位。我的尝试:十进制模块我尝试为此使用Decimal模块，但是当我尝试像这样重新采样时gr_by_price=df['price'].resample(timeframe,how='ohlc')我明白了pandas.core.groupby.DataError:Nonumerictypestoaggregate就在这之前我检查数据类型print(type(df['price'][0]))我是这个图书馆和货币处理的新手，也许Decimal不是正确的选择？我该怎么

python Pandas section code Decimal python-3.x dataframe

python - 如何在 Pandas 数据框列中选择一系列值？

importpandasaspdimportnumpyasnpdata='filename.csv'df=pd.DataFrame(data)dfonetwothreefourfivea0.469112-0.282863-1.509059barTrueb0.9324241.2242347.823421barFalsec-1.1356321.212112-0.173215barFalsed0.2324242.3421120.982342unbarTruee0.119209-1.044236-0.861849barTruef-2.104569-0.4949291.071804barFals

中选何在 code pre False python python-3.x pandas dataframe range

python - PyCharm 中未显示数据帧头

我在PyCharm中有以下代码importpandasaspdimportnumpyasnpimportmatplotlibaspltdf=pd.read_csv("c:/temp/datafile.txt",sep='\t')df.head(10)我得到以下输出:Processfinishedwithexitcode0我应该得到我的数据文件的前十行，但这些没有出现在PyCharm中。我检查了项目解释器，所有设置似乎都没有问题。在正确的Python版本下安装正确的包(numpy、pandas、matplotlib)。我做错了什么？谢谢。最佳答案

PyCharm python code section pandas dataframe

python Pandas : selecting rows whose column value is null/None/nan

这个问题在这里已经有了答案:HowtoselectrowswithoneormorenullsfromapandasDataFramewithoutlistingcolumnsexplicitly?(6个答案)关闭6年前。如何选择列中值为none的DataFrame的那些行？我已将这些编码为np.nan，但无法与此类型匹配。In[1]:importnumpyasnpIn[2]:importpandasaspdIn[3]:df=pd.DataFrame([[1,2,3],[3,4,None]])In[4]:dfOut[4]:0120123.0134NaNIn[5]:df=df.filln

selecting python section DataFrame notice pandas

python - Pandas - 找到第一次出现

假设我有一个如下所示的结构化数据框:df=pd.DataFrame({"A":['a','a','a','b','b'],"B":[1]*5})A列之前已排序。我希望找到df[df.A!='a']的第一行索引。最终目标是使用此索引将数据框分成基于A的组。现在我意识到有一个groupby功能。但是，数据框非常大，这是一个简化的玩具示例。由于A已经排序，如果我可以找到df.A!='a'的第一个索引会更快.因此，重要的是，无论您使用什么方法，一旦找到第一个元素，扫描就会停止。最佳答案 idxmax和argmax返回最大值的位置，如果最大

python Pandas code section 39 dataframe group-by find

python - 基于列名的 Pandas 数据框条件均值

从数据框样本开始解释是最容易的:TimeStamp382.098382.461383.185383.54810:28:000.0124480.0123620.01244850.01236210:30:000.01241350.01239650.01241350.01243110:32:000.05510350.05517250.0559310.056310510:34:000.0555860.05572450.0566550.056948510:36:000.0555860.0557760.05681050.057362我希望我的输出是:TimeStamp38238310:28:000

列名 python code section pandas dataframe mean

python - 按组规范化 DataFrame

假设我生成了一些数据，如下所示:N=20m=3data=np.random.normal(size=(N,m))+np.random.normal(size=(N,m))**3然后我创建一些分类变量:indx=np.random.randint(0,3,size=N).astype(np.int32)并生成一个DataFrame:importpandasaspddf=pd.DataFrame(np.hstack((data,indx[:,None])),columns=['a%s'%kforkinrange(m)]+['indx'])我可以获得每组的平均值:df.groubpy('in

DataFrame python section code pre pandas

python - 基于 Pandas 中的多个键合并两个DataFrame

pandas(或其他模块)是否有支持基于多个键合并(或连接)两个表的功能？例如，我有两个表(DataFrames)a和b:>>>aABvalue11123123421234222333>>>bABvalue2110.10120.20210.13220.33期望的结果是:ABvalue1value211230.1012340.202123420.13223330.33 最佳答案要按多个键合并，只需将列表中的键传递给pd.merge即可。:>>>pd.merge(a,b,on=['A','B'])ABvalue1value201123

DataFrame python code section value pandas merge

54 55 565758 59 60