草庐IT

dataframe

全部标签

python - PyCharm 中未显示数据帧头

我在PyCharm中有以下代码importpandasaspdimportnumpyasnpimportmatplotlibaspltdf=pd.read_csv("c:/temp/datafile.txt",sep='\t')df.head(10)我得到以下输出:Processfinishedwithexitcode0我应该得到我的数据文件的前十行,但这些没有出现在PyCharm中。我检查了项目解释器,所有设置似乎都没有问题。在正确的Python版本下安装正确的包(numpy、pandas、matplotlib)。我做错了什么?谢谢。 最佳答案

python Pandas : selecting rows whose column value is null/None/nan

这个问题在这里已经有了答案:HowtoselectrowswithoneormorenullsfromapandasDataFramewithoutlistingcolumnsexplicitly?(6个答案)关闭6年前。如何选择列中值为none的DataFrame的那些行?我已将这些编码为np.nan,但无法与此类型匹配。In[1]:importnumpyasnpIn[2]:importpandasaspdIn[3]:df=pd.DataFrame([[1,2,3],[3,4,None]])In[4]:dfOut[4]:0120123.0134NaNIn[5]:df=df.filln

python - Pandas - 找到第一次出现

假设我有一个如下所示的结构化数据框:df=pd.DataFrame({"A":['a','a','a','b','b'],"B":[1]*5})A列之前已排序。我希望找到df[df.A!='a']的第一行索引。最终目标是使用此索引将数据框分成基于A的组。现在我意识到有一个groupby功能。但是,数据框非常大,这是一个简化的玩具示例。由于A已经排序,如果我可以找到df.A!='a'的第一个索引会更快.因此,重要的是,无论您使用什么方法,一旦找到第一个元素,扫描就会停止。 最佳答案 idxmax和argmax返回最大值的位置,如果最大

python - 基于列名的 Pandas 数据框条件均值

从数据框样本开始解释是最容易的:TimeStamp382.098382.461383.185383.54810:28:000.0124480.0123620.01244850.01236210:30:000.01241350.01239650.01241350.01243110:32:000.05510350.05517250.0559310.056310510:34:000.0555860.05572450.0566550.056948510:36:000.0555860.0557760.05681050.057362我希望我的输出是:TimeStamp38238310:28:000

python - 按组规范化 DataFrame

假设我生成了一些数据,如下所示:N=20m=3data=np.random.normal(size=(N,m))+np.random.normal(size=(N,m))**3然后我创建一些分类变量:indx=np.random.randint(0,3,size=N).astype(np.int32)并生成一个DataFrame:importpandasaspddf=pd.DataFrame(np.hstack((data,indx[:,None])),columns=['a%s'%kforkinrange(m)]+['indx'])我可以获得每组的平均值:df.groubpy('in

python - 基于 Pandas 中的多个键合并两个DataFrame

pandas(或其他模块)是否有支持基于多个键合并(或连接)两个表的功能?例如,我有两个表(DataFrames)a和b:>>>aABvalue11123123421234222333>>>bABvalue2110.10120.20210.13220.33期望的结果是:ABvalue1value211230.1012340.202123420.13223330.33 最佳答案 要按多个键合并,只需将列表中的键传递给pd.merge即可。:>>>pd.merge(a,b,on=['A','B'])ABvalue1value201123

python - 对象 `astype(float)` 的 DataFrame 行为因列表或数组而异

我会先声明我一开始不会这样做,我在帮助friend时遇到了这个问题。考虑数据框dfdf=pd.DataFrame(pd.Series([[1.2]]))df00[1.2]这是对象的数据框,其中对象是列表。在我friend的代码中,他们有:df.astype(float)如我所愿,它坏了ValueError:settinganarrayelementwithasequence.但是,如果这些值是numpy数组:df=pd.DataFrame(pd.Series([np.array([1.2])]))df00[1.2]我也尝试过同样的事情:df.astype(float)001.2很高兴做

python - pyspark 在将 rdd 转换为数据帧时对 mapPartitions 使用一个任务

我很困惑为什么在将生成的RDD转换为DataFrame时,Spark似乎对rdd.mapPartitions使用了1个任务。这对我来说是个问题,因为我想从:DataFrame-->RDD-->rdd.mapPartitions-->DataFrame这样我就可以读取数据(DataFrame),将非SQL函数应用于数据block(RDD上的mapPartitions),然后转换回DataFrame,这样我就可以使用DataFrame.write过程。我可以从DataFrame-->mapPartitions开始,然后使用像saveAsTextFile这样的RDD编写器,但这不太理想,因为

python - Julia 数据框与 Python Pandas

我目前正在使用pythonpandas,想知道是否有办法将pandas中的数据输出到juliaDataframes中,反之亦然。(我想你可以用Pycall从Julia调用python但我不确定它是否适用于数据帧)有没有办法从python调用Julia并让它接受panda数据框?(无需保存为其他文件格式,如csv)什么时候使用JuliaDataframes比使用Pandas更有优势,除了非常大的数据集和运行有很多循环的东西(比如神经网络)? 最佳答案 所以有专门为此开发的库PyJulia是一个用于使用Python2和3与Julia交互

python - Julia 数据框与 Python Pandas

我目前正在使用pythonpandas,想知道是否有办法将pandas中的数据输出到juliaDataframes中,反之亦然。(我想你可以用Pycall从Julia调用python但我不确定它是否适用于数据帧)有没有办法从python调用Julia并让它接受panda数据框?(无需保存为其他文件格式,如csv)什么时候使用JuliaDataframes比使用Pandas更有优势,除了非常大的数据集和运行有很多循环的东西(比如神经网络)? 最佳答案 所以有专门为此开发的库PyJulia是一个用于使用Python2和3与Julia交互