pyspark-dataframes

python - 检测和排除 pandas DataFrame 中的异常值

我有一个包含几列的pandas数据框。现在我知道某些行是基于某个列值的异常值。例如column'Vol'hasallvaluesaround12xxandonevalueis4000(outlier).现在我想排除那些具有Vol列的行。所以，基本上我需要在数据框上放置一个过滤器，以便我们选择某一列的值在平均值范围内的所有行，例如，与平均值相差3个标准差。有什么优雅的方法可以实现这一目标？最佳答案如果您的数据框中有多个列，并且想要删除至少一列中存在异常值的所有行，则以下表达式将一次性完成。df=pd.DataFrame(np.ra

python - 在 Pandas 中附加到一个空的 DataFrame？

是否可以追加到不包含任何索引或列的空数据框？我尝试过这样做，但最后总是得到一个空数据框。例如importpandasaspddf=pd.DataFrame()data=['somekindofdatahere'-->Ihavecheckedthetypealready,anditisadataframe]df.append(data)结果如下:EmptyDataFrameColumns:[]Index:[] 最佳答案应该可以的:>>>df=pd.DataFrame()>>>data=pd.DataFrame({"A":range(

DataFrame python section code pandas

python - 在 Pandas 中附加到一个空的 DataFrame？

是否可以追加到不包含任何索引或列的空数据框？我尝试过这样做，但最后总是得到一个空数据框。例如importpandasaspddf=pd.DataFrame()data=['somekindofdatahere'-->Ihavecheckedthetypealready,anditisadataframe]df.append(data)结果如下:EmptyDataFrameColumns:[]Index:[] 最佳答案应该可以的:>>>df=pd.DataFrame()>>>data=pd.DataFrame({"A":range(

DataFrame python section code pandas

python - 如何在不明确列出列的情况下从 pandas DataFrame 中选择具有一个或多个空值的行？

我有一个约300K行和约40列的数据框。我想知道是否有任何行包含空值-并将这些“空”行放入单独的数据框中，以便我可以轻松地探索它们。我可以显式地创建一个掩码:mask=Falseforcolindf.columns:mask=mask|df[col].isnull()dfnulls=df[mask]或者我可以这样做:df.ix[df.index[(df.T==np.nan).sum()>1]]有没有更优雅的方法(定位带有空值的行)？最佳答案 [已更新以适应现代pandas，其中isnull作为DataFrames..的方法]您可以

出列具有一 False code isnull python pandas null nan

python - 如何在不明确列出列的情况下从 pandas DataFrame 中选择具有一个或多个空值的行？

我有一个约300K行和约40列的数据框。我想知道是否有任何行包含空值-并将这些“空”行放入单独的数据框中，以便我可以轻松地探索它们。我可以显式地创建一个掩码:mask=Falseforcolindf.columns:mask=mask|df[col].isnull()dfnulls=df[mask]或者我可以这样做:df.ix[df.index[(df.T==np.nan).sum()>1]]有没有更优雅的方法(定位带有空值的行)？最佳答案 [已更新以适应现代pandas，其中isnull作为DataFrames..的方法]您可以

出列具有一 False code isnull python pandas null nan

python - 从 pandas.DataFrame 中选择复杂的标准

例如我有简单的DF:importpandasaspdfromrandomimportrandintdf=pd.DataFrame({'A':[randint(1,9)forxinrange(10)],'B':[randint(1,9)*10forxinrange(10)],'C':[randint(1,9)*100forxinrange(10)]})我能否使用Pandas的方法和习语从“A”中选择“B”对应值大于50和“C”不等于900的值？最佳答案当然!设置:>>>importpandasaspd>>>fromrandomim

中选 DataFrame code gt 34 python pandas

python - 从 pandas.DataFrame 中选择复杂的标准

例如我有简单的DF:importpandasaspdfromrandomimportrandintdf=pd.DataFrame({'A':[randint(1,9)forxinrange(10)],'B':[randint(1,9)*10forxinrange(10)],'C':[randint(1,9)*100forxinrange(10)]})我能否使用Pandas的方法和习语从“A”中选择“B”对应值大于50和“C”不等于900的值？最佳答案当然!设置:>>>importpandasaspd>>>fromrandomim

中选 DataFrame code gt 34 python pandas

python - 在 pandas DataFrame 中查找列的值最大的行

如何找到特定列的值最大的行？df.max()会给我每一列的最大值，我不知道如何得到对应的行。最佳答案使用Pandasidxmax功能。很简单:>>>importpandas>>>importnumpyasnp>>>df=pandas.DataFrame(np.random.randn(5,3),columns=['A','B','C'])>>>dfABC01.232853-1.979459-0.57362610.1407670.3949401.06889020.7420231.343977-0.57974532.125299-0

DataFrame python code idxmax pandas row argmax

python - 在 pandas DataFrame 中查找列的值最大的行

如何找到特定列的值最大的行？df.max()会给我每一列的最大值，我不知道如何得到对应的行。最佳答案使用Pandasidxmax功能。很简单:>>>importpandas>>>importnumpyasnp>>>df=pandas.DataFrame(np.random.randn(5,3),columns=['A','B','C'])>>>dfABC01.232853-1.979459-0.57362610.1407670.3949401.06889020.7420231.343977-0.57974532.125299-0

DataFrame python code idxmax pandas row argmax

python - 从字符串创建 Pandas DataFrame

为了测试一些功能，我想从一个字符串创建一个DataFrame。假设我的测试数据如下所示:TESTDATA="""col1;col2;col31;4.4;992;4.5;2003;4.7;654;3.2;140"""将这些数据读入PandasDataFrame的最简单方法是什么？最佳答案一个简单的方法是使用StringIO.StringIO(python2)或io.StringIO(python3)并将其传递给pandas.read_csv功能。例如:importsysifsys.version_info[0]

DataFrame python code StringIO section string pandas csv csv-import