sample_dataframe

python - 检查 Pandas DataFrame 单元格是否包含特定字符串

假设我有以下PandasDataFrame:ab0NANBABAUNEQUITY1NAN20182NAN20173NAN20164NANNAN5NAN700HKEQUITY6NAN20187NAN20178NAN20169NANNAN我想检查b列中的每个单元格，看它是否包含字符串EQUITY。如果是这样，我想用前一个字符串替换a列中的单元格，下一行直到所有NAN的行，以获得编辑后的DataFrame如下:ab0NANBABAUNEQUITY1BABAUNEQUITY20182BABAUNEQUITY20173BABAUNEQUITY20164NANNAN5NAN700HKEQUIT

DataFrame python code 39 EQUITY pandas

python - Pandas DataFrame 和系列的矩阵乘法

我想做一个pandas数据框和一个系列的矩阵乘法df=pandas.DataFrame({'a':[4,1,3],'b':[5,2,4]},index=[1,2,3])ser=pandas.Series([0.6,0.4])df是，ab145212334是，00.610.4我想要的结果是矩阵乘积，像这样答案是，我可以通过使用numpy点运算符并重建我的dataFrame来做到这一点c=a.values.dot(b.transpose())c=pandas.DataFrame(c,index=a.index,columns=['ans'])printcans14.421.433.4pan

DataFrame python section code pre pandas matrix matrix-multiplication dot-product

python - 将 pandas DataFrame 行复制到多个其他行

简单而实用的问题，但我找不到解决方案。我看的问题如下:ModifyingasubsetofrowsinapandasdataframeChangingcertainvaluesinmultiplecolumnsofapandasDataFrameatonceFastestwaytocopycolumnsfromoneDataFrametoanotherusingpandas?Selectingwithcomplexcriteriafrompandas.DataFrame这些和我的主要区别在于我不需要插入单个值，而是插入一行。我的问题是，我选择了一行数据框，比如df1。因此我有一个系列。

DataFrame python code section stackoverflow pandas

python - 通过过滤对 Pyspark Dataframe 进行分组

我有如下数据框cust_idreqreq_met-----------------1r111r201r212r113r113r214r105r115r205r11我必须看看客户，看看他们有多少要求，看看他们是否至少满足过一次。同一客户和要求可以有多个记录，一个满足和不满足。在上述情况下，我的输出应该是cust_id-------123我做的是#sayinitialdataframeisdfdf1=df\.groupby('cust_id')\.countdistinct('req')\.alias('num_of_req')\.sum('req_met')\.alias('sum_re

Dataframe Pyspark 39 req code python apache-spark apache-spark-sql

python - 当 ID 匹配时，在其他 Pyspark Dataframe 中逐列划分 Pyspark Dataframe

我有一个PySparkDataFrame，df1，它看起来像:CustomerIDCustomerValue12.1714.1514.2517.5017.0117.35我有第二个PySparkDataFramedf2，它是按CustomerID分组并按求和函数聚合的df1。它看起来像这样:CustomerIDCustomerValueSum12.1714.4017.86我想向df1添加第三列，即df1['CustomerValue']除以df2['CustomerValueSum']以获得相同的CustomerID。这看起来像:CustomerIDCustomerValueNormal

Dataframe Pyspark CustomerID code section python spark-dataframe

python - 以 map 类型创建 DataFrame 分组列

我的DataFrame具有以下结构:df=spark.createDataFrame([('B','a',10),('B','b',20),('C','c',30)],['Brand','Type','Amount'])df.show()#+-----+----+------+#|Brand|Type|Amount|#+-----+----+------+#|B|a|10|#|B|b|20|#|C|c|30|#+-----+----+------+我想通过将type和amount分组到type的单个列中来减少行数:Map。所以Brand将是唯一的，并且MAP_type_AMOUNT将为

DataFrame python code 39 section apache-spark dictionary pyspark apache-spark-sql

python - 从 pandas Dataframe 中提取在特定列中具有特定值的所有行

我是Python/Pandas的新手，正在努力从pd.Dataframe中提取正确的数据。我实际拥有的是一个包含3列的Dataframe:data=PositionLetterValue1aTRUE2fFALSE3cTRUE4dTRUE5kFALSE我想做的是将所有TRUE行放入一个新的Dataframe中，这样答案就是:answer=PositionLetterValue1aTRUE3cTRUE4dTRUE我知道您可以使用访问特定列data['Value']但如何提取所有TRUE行？感谢您的帮助和建议，亚历克斯最佳答案您可以测

Dataframe python code section TRUE pandas

python - pandas:将一系列 DataFrame 转换为单个 DataFrame

我有一个pandasSeries对象，每个值都是一个DataFrame。我正在尝试将其转换为单个DataFrame，所有Series值(单个DataFrame)相互堆叠。如何在没有循环的情况下实现这一点？下面的玩具示例可生成测试对象(结果)。importpandasaspdimportnumpyasnpnumrows=10000deftoy_function(x):silly_sequence=np.random.uniform(10,100,(x+1))toy=pd.DataFrame({'ID':pd.Series(np.random.random_integers(1,20,3)

DataFrame python code section pandas append

python - pyspark : Convert DataFrame to RDD[string]

我想将pyspark.sql.dataframe.DataFrame转换为pyspark.rdd.RDD[String]我将DataFramedf转换为RDDdata:data=df.rddtype(data)##pyspark.rdd.RDD新的RDDdata包含Rowfirst=data.first()type(first)##pyspark.sql.types.Rowdata.first()Row(_c0=u'aaa',_c1=u'bbb',_c2=u'ccc',_c3=u'ddd')我想将Row转换为String列表，如下例所示:u'aaa',u'bbb',u'ccc',u'd

DataFrame pyspark code section 39 python apache-spark apache-spark-sql

Python/Pandas Dataframe 将 0 替换为中值

我有一个包含多列的pythonpandas数据框，其中一列有0值。我想用此列的median或mean替换0值。data是我的数据框artist_hotness是列mean_artist_hotness=data['artist_hotness'].dropna().mean()iflen(data.artist_hotness[data.artist_hotness.isnull()])>0:data.artist_hotness.loc[(data.artist_hotness.isnull()),'artist_hotness']=mean_artist_hotness我试过了，但

中值 Dataframe code artist_hotness hotness python pandas mean median