pyspark-dataframes

python - 重新分配唯一值 - pandas DataFrame

我正在尝试将pandasdf中的assignunique值分配给特定的个体。对于下面的df，[Area]和[Place]将共同构成unique值是各种工作。这些值将分配给个人，总体目标是使用尽可能少的个人。诀窍是这些值不断地开始和结束，并持续不同的时间长度。每次分配给个人的最唯一值是3。[On]显示[Place]和[Area]的当前唯一值的数量。因此，这为我需要多少人提供了具体指南。例如3个uniquevaluesone=1person,6uniquevalueson=2persons我无法执行groupby语句，其中我将第一个3个唯一值分配给individual1以及接下来的3个un

DataFrame python 39 Person House pandas numpy assign

python - Apache Spark : How to create a matrix from a DataFrame?

我在ApacheSpark中有一个带有整数数组的DataFrame，源是一组图像。我最终想对其进行PCA，但我无法从我的数组创建矩阵。如何从RDD创建矩阵？>imagerdd=traindf.map(lambdarow:map(float,row.image))>mat=DenseMatrix(numRows=206456,numCols=10,values=imagerdd)Traceback(mostrecentcalllast):File"",line2,inmat=DenseMatrix(numRows=206456,numCols=10,values=imagerdd)Fil

DataFrame python code values traindf matrix apache-spark pyspark apache-spark-mllib

python - 通过 pyspark.ml CrossValidator 调整隐式 pyspark.ml ALS 矩阵分解模型的参数

我正在尝试调整使用隐式数据的ALS矩阵分解模型的参数。为此，我尝试使用pyspark.ml.tuning.CrossValidator来运行参数网格并选择最佳模型。我相信我的问题出在评估者身上，但我想不通。我可以使用回归RMSE评估器将其用于显式数据模型，如下所示:frompysparkimportSparkConf,SparkContextfrompyspark.sqlimportSQLContextfrompyspark.ml.recommendationimportALSfrompyspark.ml.tuningimportCrossValidator,ParamGridBuil

pyspark CrossValidator 34 alsImplicit python apache-spark apache-spark-ml

python - 使用多索引列展平 DataFrame

我想将从数据透视表派生的PandasDataFrame转换为如下所示的行表示形式。这是我所在的地方:importpandasaspdimportnumpyasnpdf=pd.DataFrame({'goods':['a','a','b','b','b'],'stock':[5,10,30,40,10],'category':['c1','c2','c1','c2','c1'],'date':pd.to_datetime(['2014-01-01','2014-02-01','2014-01-06','2014-02-09','2014-03-09'])})#wedon'tcareabo

多索展平 39 code piv python pandas pivot-table

python Pandas : pivot only certain columns in the DataFrame while keeping others

我正在尝试重新安排我使用Pandas从json中自动读取的DataFrame。我搜索过但没有成功。我有以下json(为方便复制/粘贴而保存为字符串)，在“值”标签下有一堆json对象/字典json_str='''{"preferred_timestamp":"internal_timestamp","internal_timestamp":3606765503.684,"stream_name":"ctdpf_j_cspp_instrument","values":[{"value_id":"temperature","value":9.8319},{"value_id":"condu

DataFrame certain timestamp internal_timestamp value python pandas pivot-table

python - 如何在anaconda中导入pyspark

我正在尝试将pyspark与anaconda一起使用。安装spark并设置$SPARK_HOME变量后，我尝试了:$pipinstallpyspark这(当然)行不通，因为我发现我需要通过telpython来查找$SPARK_HOME/python/下的pyspark。问题是要做到这一点，我需要设置$PYTHONPATH而anaconda不使用该环境变量。我试图将$SPARK_HOME/python/的内容复制到ANACONDA_HOME/lib/python2.7/site-packages/但它不起作用。在anaconda中使用pyspark有什么解决方案吗？

中导何在 code section pyspark python apache-spark anaconda

python - 向 pandas DataFrame 添加一行列的方法

我有一个pandasDataFrame，其中包含一些随时间推移获取的传感器读数，如下所示:diode1diode2diode3diode4Time0.5307010161.21817714191.89513816172.5708216173.24014817193.91013617184.59413516195.2659012165.94812316176.6321021517我已经编写了代码以使用每一列的方式添加另一行:#Listoftheaveragesforthetest.averages=[df[key].describe()['mean']forkeyindf]indexes

加一行列 diode 17.0 code python pandas dataframe mean

python - 如何逐个创建 DataFrame 切片对象？

我有一个DataFrame，我想从中选择特定的行和列。我知道如何使用loc来做到这一点。但是，我希望能够单独指定每个条件，而不是一次性指定。importnumpyasnpimportpandasaspdidx=pd.IndexSliceindex=[np.array(['foo','foo','qux','qux']),np.array(['a','b','a','b'])]columns=["A","B"]df=pd.DataFrame(np.random.randn(4,2),index=index,columns=columns)printdfprintdf.loc[idx['f

逐个 DataFrame slice 39 code python pandas

python - 使用 DataFrame.replace 时是否可以强制 pandas 不转换数据类型

这是一个工作示例:df=pd.DataFrame({'A':[-39882300000000000000]},dtype='object')df.replace({',':'.'})引发了一个OverflowError因为在代码的某处convert标志是设置为真。我不确定，但这可能是因为pandas推断它只包含数字。我从Excel工作簿中读取数据，我想在使用df.replace时阻止这种转换。有办法吗？最佳答案 df.update(df.blocks['object'].astype(str).replace({',':'.'})

DataFrame replace code section python pandas

python pandas dataframe线程安全吗？

我正在使用多个线程来访问和删除我的pandas数据框中的数据。因此，我想知道pandasdataframe线程安全吗？最佳答案不，pandas不是线程安全的。而且它以令人惊讶的方式不是线程安全的。我可以在另一个线程正在使用时从pandasdataframe中删除吗？搞砸了!没有。通常没有。甚至对于GIL锁定的Python数据结构也不行。我可以在其他人正在写入pandas对象时读取它吗？我可以在我的线程中复制一个pandas数据框，然后处理副本吗？绝对不是。有一个长期悬而未决的问题:https://github.com/panda

dataframe python pandas code section thread-safety

137 138 139140141 142 143