草庐IT

sample_dataframe

全部标签

python - Networkx Multigraph from_pandas_dataframe

更新:所写的问题与Networkx版本from_pandas_dataframe方法hasbeendropped.要在Networkx>=2.0中完成相同的任务,请参阅已接受答案的更新。尝试创建MultiGraph()使用networkx的from_pandas_dataframe来自pandasDataFrame的实例.我在下面的示例中做错了什么?In[1]:importpandasaspdimportnetworkxasnxdf=pd.DataFrame([['geneA','geneB',0.05,'method1'],['geneA','geneC',0.45,'method1

python - 在同一调用中从 Spark Dataframes split 方法中选择数组元素?

我正在拆分一个HTTP请求来查看元素,我想知道是否有一种方法可以指定我想在同一个调用中查看的元素,而无需执行其他操作。例如:frompyspark.sqlimportfunctionsasfndf.select(fn.split(df.http_request,'/').alias('http'))给我一​​个新的Dataframe,其中包含这样的数组行:+--------------------+|http|+--------------------+|[,courses,26420...|我想要索引1(类(class))中的项目,而不必执行另一个select语句来指定df.sele

python - 如何计算 DataFrame 中连续 TRUE 的数量?

我有一个由True和False组成的数据集。SampleTable:ABC0FalseTrueFalse1FalseFalseFalse2TrueTrueFalse3TrueTrueTrue4FalseTrueFalse5TrueTrueTrue6TrueFalseFalse7TrueFalseTrue8FalseTrueTrue9TrueFalseFalse我想计算每一列的连续True值的数量,如果有多个连续的True系列,我想得到它的最大值。对于上表,我会得到:length=[3,4,2]我找到了类似的讨论帖,但没有一个能解决我的问题。因为我有并且将有更多的列(产品),所以我需要对

python - 使用定义的数据类型初始化 pandas DataFrame

pd.DataFrame文档字符串为整个数据帧指定了一个标量参数:dtype:dtype,默认无要强制的数据类型,否则推断看起来它确实是一个标量,因为下面会导致错误:dfbinseq=pd.DataFrame([],columns=["chr","centre","seq_binary"],dtype=["O",pd.np.int64,"O"])dfbinseq=pd.DataFrame([],columns=["chr","centre","seq_binary"],dtype=[pd.np.object,pd.np.int64,pd.np.object])对我来说,创建一个空数据框

python - Pandas :Dataframe.Drop - ValueError:标签 ['id'] 不包含在轴中

试图从Pandas的DataFrame中删除一列。DataFrame从文本文件创建。importpandasaspddf=pd.read_csv('sample.txt')df.drop(['a'],1,inplace=True)但是,这会产生以下错误:ValueError:labels['a']notcontainedinaxis这是sample.txt文件的副本:a,b,c,d,e1,2,3,4,52,3,4,5,63,4,5,6,74,5,6,7,8提前致谢。 最佳答案 所以问题是您的“sample.txt”文件实际上并不包含

python - 转置 Pandas DataFrame 并将列标题更改为列表

我有以下Pandas子数据框col1name1name2522a100.21021b72-0.1col1没有重复项。我想转置数据框并将列标题更改为col1值。理想情况下,输出应该看起来像Variableabname11072name20.2-0.1很容易转置df并将第一列标记为变量df.transpose().reset_index().rename(columns={'index':'Variable'})结果DF将以原始DF的索引作为列标题(并且它们未排序并且在我的数据中不从1开始!)如何更改其余列名? 最佳答案 需要set_i

python - pandas dataframe groupby 并获得第 n 行

我有一个像下面这样的pandasDataFrame。df=pd.DataFrame([[1.1,1.1,1.1,2.6,2.5,3.4,2.6,2.6,3.4,3.4,2.6,1.1,1.1,3.3],list('AAABBBBABCBDDD'),[1.1,1.7,2.5,2.6,3.3,3.8,4.0,4.2,4.3,4.5,4.6,4.7,4.7,4.8],['x/y/z','x/y','x/y/z/n','x/u','x','x/u/v','x/y/z','x','x/u/v/b','-','x/y','x/y/z','x','x/u/v/w'],['1','3','3','2'

python - 计算不包含某些字符串 Pandas DataFrames 的行

我想计算数据框不包含某些字符串的行数。例如:df=pd.DataFrame([[1.1,1.1,1.1,2.6,2.5,3.4,2.6,2.6,3.4,3.4,2.6,1.1,1.1,3.3],list('AAABBBBABCBDDD'),['x/y/z','x/y','x/y/z/n','x/u','x','x/u/v','x/y/z','x','x/u/v/b','-','x/y','x/y/z','x','x/u/v/w']]).Tdf.columns=['col1','col2','col3']col1col2col301.1Ax/y/z11.1Ax/y21.1Ax/y/z/n

python - 反转 pandas DataFrame 中的索引和列

我有一个只有一行的pandasDataFrame:10203070data1:2.3567我想重新索引框架,以便列值(10、20、30、70)成为索引值,数据成为列:data1:102.3205.0306.0707.0我如何实现这一目标? 最佳答案 您正在寻找transpose(T)方法:In[11]:dfOut[11]:10203070data1:2.3567In[12]:df.TOut[12]:data1:102.3205.0306.0707.0 关于python-反转pandasD

python - 基于 DataFrame 列名称的彩色 seaborn 箱线图

我想创建一个箱线图列表,其框的颜色取决于我用作输入的pandas.DataFrame列的名称。列名称包含指示实验条件的字符串,我希望箱线图的框基于该条件着色。我这样做是为了制作箱线图:sns.boxplot(data=data.dropna(),orient="h")plt.show()这会创建一个包含正确名称的箱线图的漂亮列表。现在,我想为名称中包含“prog+,DMSO+”的每个箱线图赋予红色,其余部分为蓝色。我尝试创建一个字典,其中列名作为键,颜色作为值:color={}forcolumnindata.columns:if'prog+,DMSO+'incolumn:color[c