草庐IT

pyspark-dataframes

全部标签

python - 从DataFrame python pandas写入csv

我编写了一个程序,其中我添加了两列并将答案写入CSV文件,但是当我只想写入列的选择时出现错误。这是我的逻辑:importpandasaspddf=pd.DataFrame({'A':['foo','bar','foo','bar','foo','bar','foo','bar'],'B':['one','one','two','two','two','two','one','two'],'C':[56,2,3,4,5,6,0,2],'D':[51,2,3,4,5,6,0,2]})grouped=df.groupby(['A','B']).sum()grouped['sum']=(gro

python Pandas : How to move one row to the first row of a Dataframe?

给定一个已编入索引的现有Dataframe。>>>df=pd.DataFrame(np.random.randn(10,5),columns=['a','b','c','d','e'])>>>dfabcde0-0.131666-0.3150190.306728-0.642224-0.29456210.769310-1.2770650.735549-0.900214-1.8263202-1.561325-0.1555710.5446970.275880-0.45156430.612561-0.5404572.390871-2.6997410.5348074-1.504476-2.1137

python - 使用 pyspark 提交作业时,如何访问使用 --files 参数上传的静态文件?

例如我有一个文件夹:/-test.py-test.yml作业被提交到spark集群:gcloudbetadataproc作业提交pyspark--files=test.yml"test.py"在test.py中,我想访问我上传的静态文件。withopen('test.yml')astest_file:logging.info(test_file.read())但出现以下异常:IOError:[Errno2]Nosuchfileordirectory:'test.yml'如何访问我上传的文件? 最佳答案 可以通过SparkFiles访

python - Pandas 数据框属性错误 : 'DataFrame' object has no attribute 'design_info'

我正在尝试使用statsmodels.formula.apiOLS实现的predict()函数。当我将新数据框传递给函数以获取样本外数据集的预测值时result.predict(newdf)返回以下错误:'DataFrame'objecthasnoattribute“设计信息”。这是什么意思,我该如何解决?完整的回溯是:p=result.predict(newdf)File"C:\Python27\lib\site-packages\statsmodels\base\model.py",line878,inpredictexog=dmatrix(self.model.data.orig

python - 从 PySpark 连接到 S3 数据

我正在尝试从Amazons3读取一个JSON文件,以创建一个spark上下文并使用它来处理数据。Spark基本上是在一个docker容器中。所以把文件放在docker路径也是PITA。因此将其推到S3。下面的代码解释了其余的内容。frompysparkimportSparkContext,SparkConfconf=SparkConf().setAppName("first")sc=SparkContext(conf=conf)config_dict={"fs.s3n.awsAccessKeyId":"**","fs.s3n.awsSecretAccessKey":"**"}bucke

python - PySpark 计算关联

我想使用pyspark.mllib.stat.Statistics.corr函数来计算pyspark.sql.dataframe.DataFrame对象的两列之间的相关性。corr函数期望采用Vectors对象的rdd。如何将df['some_name']的列转换为Vectors.dense对象的rdd? 最佳答案 应该没有这个必要。对于数值,您可以直接使用DataFrameStatFunctions.corr计算相关性:df1=sc.parallelize([(0.0,1.0),(1.0,0.0)]).toDF(["x","y"]

python - PySpark 从本地函数广播变量

我正在尝试从Python方法中创建广播变量(尝试抽象一些我正在创建的依赖于分布式操作的实用方法)。但是,我似乎无法从Sparkworker中访问广播变量。假设我有这个设置:defmain():sc=SparkContext()SomeMethod(sc)defSomeMethod(sc):someValue=rand()V=sc.broadcast(someValue)A=sc.parallelize().map(worker)defworker(element):element*=V.value###NameError:globalname'V'isnotdefined###但是,如

python - pandas 获取 DataFrame 中给定索引的位置

假设我有一个这样的DataFrame:dfAB501182312545其中5,18,125是索引我想获取某个索引之前(或之后)的行。例如,我有索引18(例如通过执行df[df.A==2].index),我想获取之前的行,我不知道这一行有5作为索引。2个子问题:如何获取索引18的位置?像df.loc[18].get_position()这样的东西会返回1这样我就可以使用df.iloc[df.loc[18]到达之前的那一行].get_position()-1]是否有另一种解决方案,有点像带有grep的选项-C、-A或-B? 最佳答案 第

python - 将 DataFrame 除以第一行

我已经检查了文档。我不明白索引PandasDataFrame的方法。我想将股票价格的DataFrame除以它们各自的初始值,以将不同的股票索引为100。我想比较它们的表现。数据框看起来像这样:>>>IndexPricesDatetimeIndex:157entries,1999-12-3100:00:00to2012-12-3100:00:00Freq:MDatacolumns:MSCIWORLD:GU$148non-nullvaluesS&P500COMPOSITE148non-nullvaluesDAX30PERFORMANCE148non-nullvaluesRUSSELL200

python - 合并 Pandas DataFrame 日期时间列

假设我有如下数据框:YearMonthDay200318200327如何在数据框中新定义的列中组合年、月和日,因为数据框将是:YearMonthDayDate2003182003-1-82003272003-2-7对此有什么想法吗?我正在使用pandaspython数据框谢谢! 最佳答案 >>>fromdatetimeimportdatetime>>>df['Date']=df.apply(lambdarow:datetime(row['Year'],row['Month'],row['Day']),axis=1)>>>dfYear