sample_dataframe

python - 根据列值重复 pandas DataFrame 中的行

我有以下df:code.role.persons123.Janitor.3123.Analyst.2321.Vallet.2321.Auditor.5第一行表示我有3个人扮演看门人的角色。我的问题是我需要为每个人安排一行。我的df应该是这样的:df:code.role.persons123.Janitor.3123.Janitor.3123.Janitor.3123.Analyst.2123.Analyst.2321.Vallet.2321.Vallet.2321.Auditor.5321.Auditor.5321.Auditor.5321.Auditor.5321.Auditor.5

python - 是否有与 R 的 sample() 函数等效的 Python？

我想知道Python是否具有与R中的sample()函数等效的功能。sample()函数使用替换或不替换从x的元素中获取指定大小的样本。语法是:sample(x,size,replace=FALSE,prob=NULL)(更多信息here) 最佳答案我认为numpy.random.choice(a,size=None,replace=True,p=None)可能正是您要找的。p参数对应于sample()函数中的prob参数。关于python-是否有与R的sample()函数等效的Py

等效 python code section sample r probability

python - 将具有混合数据和类别的 pandas DataFrame 存储到 hdf5 中

我想将具有不同列的数据帧存储到一个hdf5文件中(在下面找到数据类型的摘录)。In[1]:mydfOut[1]:endTimeuint32distancefloat16signaturecategoryanchorNamecategorystationListobject在转换某些列(上面摘录中的signature和anchorName)之前，我使用了如下代码来存储它(效果很好):path='tmp4.hdf5'key='journeys'mydf.to_hdf(path,key,mode='w',complevel=9,complib='bzip2')但它不适用于类别，然后我尝试了以

DataFrame python 39 stationList code pandas

python - Pandas DataFrame.unstack() 更改行和列标题的顺序

我遇到了以下对行和列标题进行排序的问题。这里是重现这个的方法:X=pd.DataFrame(dict(x=np.random.normal(size=100),y=np.random.normal(size=100)))A=pd.qcut(X['x'],[0,0.25,0.5,0.75,1.0])#createafactorB=pd.qcut(X['y'],[0,0.25,0.5,0.75,1.0])#createanotherfactorg=X.groupby([A,B])['x'].mean()#doatwo-waybucketingprintg#thisgivesthefollo

DataFrame unstack code 0.0321 0.724 python pandas

python - 沿着时间序列索引连接 pandas DataFrame

我有两个较大的(提供了片段)pandasDateFrame，它们具有不相等的日期作为索引，我希望将它们合并为一个:NAB.AXCBA.AXCloseVolumeCloseVolumeDateDate2009-06-0536.5149629002009-06-0821.9502009-06-0436.7955288002009-06-0521.9589170002009-06-0336.8051165002009-06-0422.21187236002009-06-0236.3353037002009-06-0323.11116438002009-06-0136.165625500200

沿着 DataFrame 2009 NaN 39 python numpy scipy pandas yahoo-finance

python - 识别 pandas DataFrame 的列中连续出现的值

我有一个像这样的df:Count1011001110如果Count中1和连续出现两次或多次，我想在新列中返回1code>0如果没有。因此，在新列中，根据列Count中满足的条件，每一行都将获得1。我想要的输出将是:CountNew_Value10001111000011111100我在想我可能需要使用itertools但我一直在阅读它，但还没有找到我需要的东西。我希望能够使用此方法来计算任意数量的连续出现次数，而不仅仅是2次。例如，有时我需要计算连续出现的10次，我在这里的示例中只使用2。最佳答案你可以:df['consecut

DataFrame python code Count pre pandas

python - 向 MultiIndex DataFrame/Series 添加一行

我想知道是否有一种等效的方法可以将行添加到带有MultiIndex的Series或DataFrame中，就像使用单个索引一样，即使用.ix或.loc？我认为自然的方式应该是这样的row_to_add=pd.MultiIndex.from_tuples()df.ix[row_to_add]=my_row但这会引发KeyError。我知道我可以使用.append()，但我会发现使用.ix[]或.loc[]更简洁。举个例子:>>>df=pd.DataFrame({'Time':[dt.datetime(2013,2,3,9,0,1),dt.datetime(2013,2,3,9,0,1)],

MultiIndex DataFrame section 39 2013 python pandas indexing

python - 使用时间戳列表选择由 DatetimeIndex 索引的 Pandas DataFrame 的子集

我有一只PandasDataFrameDatetimeIndex:3425100entries,2011-12-0100:00:00to2011-12-3123:59:59Datacolumns:sig_qual3425100non-nullvaluesheave3425100non-nullvaluesnorth3425099non-nullvalueswest3425097non-nullvaluesdtypes:float64(4)我选择了DataFrame的一个子集使用.ix[start_datetime:end_datetime]然后我将其传递给peakdetectfunct

DatetimeIndex DataFrame code 2011 python time-series pandas

Python Pandas，将 DataFrame 写入固定宽度文件(to_fwf？)

我看到Pandas有read_fwf，但它有类似DataFrame.to_fwf的东西吗？我正在寻找对字段宽度、数值精度和字符串对齐的支持。DataFrame.to_csv似乎没有这样做。numpy.savetxt可以，但我不想这样做:numpy.savetxt('myfile.txt',mydataframe.to_records(),fmt='someformat')这似乎是错误的。非常感谢您的想法。最佳答案直到有人implements这在Pandas中，你可以使用tabulate包裹:importpandasaspdfro

DataFrame Python code section tabulate pandas fixed-width

python - 将具有属性和边的节点从 DataFrame 加载到 NetworkX

我是使用Python处理图形的新手:NetworkX。到目前为止，我一直在使用Gephi。那里的标准步骤(但不是唯一可能的)是:从表格/电子表格加载节点信息；其中一列应该是ID，其余列是关于节点的元数据(节点是人，所以性别，组......通常用于着色)。喜欢:id;NormalizedName;Genderper1;Jesús;maleper2;Abraham;maleper3;Isaac;maleper4;Jacob;maleper5;Judá;maleper6;Tamar;female...然后也从表/电子表格加载边，使用与通常有四列(目标、源、权重和类型)的节点电子表格的列ID中

DataFrame NetworkX code 39 set_node_attributes python pandas graph

34 35 363738 39 40