草庐IT

pyspark-dataframes

全部标签

python - Pandas 函数 : DataFrame. apply() 运行顶行两次

这个问题在这里已经有了答案:Whydoespandasapplycalculatetwice(3个答案)关闭2年前。我有两个版本的函数使用PandasforPython2.7逐行通过inputs.csv。第一个版本在单列上使用Series.apply(),并按预期遍历每一行。第二个版本在多列上使用了DataFrame.apply(),并且出于某种原因它读取了顶行两次。然后它继续执行其余的行而不重复。知道为什么后者会读取顶行两次吗?版本#1–Series.apply()(读取顶行一次)importpandasaspddf=pd.read_csv(inputs.csv,delimiter=

python - Networkx Multigraph from_pandas_dataframe

更新:所写的问题与Networkx版本from_pandas_dataframe方法hasbeendropped.要在Networkx>=2.0中完成相同的任务,请参阅已接受答案的更新。尝试创建MultiGraph()使用networkx的from_pandas_dataframe来自pandasDataFrame的实例.我在下面的示例中做错了什么?In[1]:importpandasaspdimportnetworkxasnxdf=pd.DataFrame([['geneA','geneB',0.05,'method1'],['geneA','geneC',0.45,'method1

python - 在同一调用中从 Spark Dataframes split 方法中选择数组元素?

我正在拆分一个HTTP请求来查看元素,我想知道是否有一种方法可以指定我想在同一个调用中查看的元素,而无需执行其他操作。例如:frompyspark.sqlimportfunctionsasfndf.select(fn.split(df.http_request,'/').alias('http'))给我一​​个新的Dataframe,其中包含这样的数组行:+--------------------+|http|+--------------------+|[,courses,26420...|我想要索引1(类(class))中的项目,而不必执行另一个select语句来指定df.sele

python - 如何计算 DataFrame 中连续 TRUE 的数量?

我有一个由True和False组成的数据集。SampleTable:ABC0FalseTrueFalse1FalseFalseFalse2TrueTrueFalse3TrueTrueTrue4FalseTrueFalse5TrueTrueTrue6TrueFalseFalse7TrueFalseTrue8FalseTrueTrue9TrueFalseFalse我想计算每一列的连续True值的数量,如果有多个连续的True系列,我想得到它的最大值。对于上表,我会得到:length=[3,4,2]我找到了类似的讨论帖,但没有一个能解决我的问题。因为我有并且将有更多的列(产品),所以我需要对

python - 如何通过pyspark以gzip格式保存spark RDD

所以我使用以下代码将sparkRDD保存到S3存储桶。有没有办法压缩(gz格式)并保存而不是将其另存为文本文件。help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help") 最佳答案 saveAsTextFile方法采用一个可选参数,该参数指定压缩编解码器类:help_data.repartition(5).saveAsTextFile(path="s3://help-test/logs/help",compressionCodecClass="org.apa

python - Pyspark 导入 .py 文件不起作用

我的目标是将自定义.py文件导入我的spark应用程序并调用该文件中包含的一些函数这是我尝试过的:我有一个名为Test.py的测试文件,如下所示:deffunc():print"Importisworking"在我的Spark应用程序中,我执行以下操作(如文档中所述):sc=SparkContext(conf=conf,pyFiles=['/[AbsolutePathTo]/Test.py'])我也试过这个(在创建Spark上下文之后):sc.addFile("/[AbsolutePathTo]/Test.py")我什至在提交我的spark申请时尝试了以下方法:./bin/spark-

python - 使用定义的数据类型初始化 pandas DataFrame

pd.DataFrame文档字符串为整个数据帧指定了一个标量参数:dtype:dtype,默认无要强制的数据类型,否则推断看起来它确实是一个标量,因为下面会导致错误:dfbinseq=pd.DataFrame([],columns=["chr","centre","seq_binary"],dtype=["O",pd.np.int64,"O"])dfbinseq=pd.DataFrame([],columns=["chr","centre","seq_binary"],dtype=[pd.np.object,pd.np.int64,pd.np.object])对我来说,创建一个空数据框

python - 如何选择最后一行以及如何按索引访问 PySpark 数据框?

来自像这样的PySparkSQL数据框nameagecityabc20Adef30B如何获取最后一行。(就像df.limit(1)我可以将数据帧的第一行放入新数据帧)。以及如何通过索引访问数据帧行。如行号。12或200。在pandas中我可以做到df.tail(1)#forlastrowdf.ix[rownoorindex]#byindexdf.loc[]orbydf.iloc[]我只是好奇如何以这种方式或替代方式访问pyspark数据框。谢谢 最佳答案 Howtogetthelastrow.漫长而丑陋的方式,假设所有列都是可订购的

python - Pandas :Dataframe.Drop - ValueError:标签 ['id'] 不包含在轴中

试图从Pandas的DataFrame中删除一列。DataFrame从文本文件创建。importpandasaspddf=pd.read_csv('sample.txt')df.drop(['a'],1,inplace=True)但是,这会产生以下错误:ValueError:labels['a']notcontainedinaxis这是sample.txt文件的副本:a,b,c,d,e1,2,3,4,52,3,4,5,63,4,5,6,74,5,6,7,8提前致谢。 最佳答案 所以问题是您的“sample.txt”文件实际上并不包含

python - 转置 Pandas DataFrame 并将列标题更改为列表

我有以下Pandas子数据框col1name1name2522a100.21021b72-0.1col1没有重复项。我想转置数据框并将列标题更改为col1值。理想情况下,输出应该看起来像Variableabname11072name20.2-0.1很容易转置df并将第一列标记为变量df.transpose().reset_index().rename(columns={'index':'Variable'})结果DF将以原始DF的索引作为列标题(并且它们未排序并且在我的数据中不从1开始!)如何更改其余列名? 最佳答案 需要set_i