pyspark-dataframes

Python - 如何将 JSON 文件转换为 Dataframe

如何将JSON文件本身转换为数据帧以进行一些转换。例如，如果JSON文件读取:{"FirstName":"John","LastName":"Mark","MiddleName":"Lewis","username":"johnlewis2","password":"2910"}如何将它转换成这样的表格Column->FirstName|LastName|MiddleName|username|passwordRow----->John|Mark|Lewis|johnlewis2|2910 最佳答案从字典对象创建数据框。impor

Dataframe Python 39 code pandas json

python - 如何使用pyspark在cassandra数据上创建RDD对象

我正在使用cassandra2.0.3，我想使用pyspark(ApacheSparkPythonAPI)从cassandra数据创建一个RDD对象。请注意:我不想导入CQL，然后从pysparkAPI进行CQL查询，而是想创建一个RDD，我想在其上进行一些转换。我知道这可以在Scala中完成，但我无法找出如何从pyspark中完成。如果有人能指导我，我将不胜感激。最佳答案可能与您不再相关，但我一直在寻找相同的东西，但找不到任何让我满意的东西。所以我做了一些工作:https://github.com/TargetHolding/

cassandra pyspark section python scala pycassa apache-spark

python - PySpark 中的随机数生成

让我们从一个总是返回随机整数的简单函数开始:importnumpyasnpdeff(x):returnnp.random.randint(1000)和一个用0填充并使用f映射的RDD:rdd=sc.parallelize([0]*10).map(f)由于上面的RDD没有持久化，我希望每次收集时我都会得到不同的输出:>rdd.collect()[255,512,512,512,255,512,255,512,512,255]如果我们忽略值的分布看起来并不是真正随机的事实，它或多或少会发生这种情况。当我们只取第一个元素时，问题就开始了:assertlen(set(rdd.first()fo

PySpark python code pre section random apache-spark rdd

python - 保存 pd.DataFrame 时如何强制使用 parquet dtypes？

有没有办法强制parquet文件将pd.DataFrame列编码为给定类型，即使该列的所有值都为空？parquet在其模式中自动分配“null”这一事实阻止我将许多文件加载到单个dask.dataframe中。尝试使用df.column_name=df.column_name.astype(sometype)转换pandas列无效。为什么我会问这个我想将许多parquet文件加载到一个dask.dataframe中。所有文件都是使用df.to_parquet(filename)从尽可能多的pd.DataFrame实例生成的。所有数据框都具有相同的列，但对于某些给定的列，可能仅包含空值。

DataFrame parquet 34 39 code python pandas dask pyarrow

python - pandas 的 DataFrame 对象是否取代了异构数据类型的其他替代方案？

之前，有larry和structured/recordarrays在NumPy中，但我想知道鉴于pandas包的快速发展，它们是否会以任何频率使用。来自R，我总是会被困在解压缩记录数组以修改来自多个列的值并将它们重新分配回结构中，但我很高兴pandas现在允许它的数据帧.我想知道记录数组是否有任何用途仍然优越(它是否有一些pandas没有的有用方法)？最佳答案这是pandas和numpy记录数组之间的一个很好的解释和简单的比较-Normalize/Standardizeanumpyrecarray

DataFrame python section noreferrer pandas numpy scipy

python - 通过 index 和 cols 合并/加入/追加两个带有 MultiIndex 列的 Pandas DataFrame

为了这个我一直在用头撞table，不知道有没有办法，也许我正在尝试一些不可能的事情。我有两个带有MultiIndex列(三级)和时间索引(单级)的DataFrame。第一个是这样的:bordera-bc-dfromabctobad2009-03-01-0.778346-0.928997NaN2009-03-02-1.3525591.247335NaN2009-03-03-0.9679390.432638NaN2009-03-040.786094-2.209559NaN2009-03-05-0.0013381.084152NaN2009-03-061.163334NaNNaN2009-0

MultiIndex DataFrame 2009 NaN 03 python pandas multi-index

python - 从 DataFrame 行获取行索引

是否可以在不添加包含行号的额外行的情况下获取DataFrame行的行号(即“索引值的序号位置”)(索引可以是任意的)，即甚至是MultiIndex)？>>>importpandasaspd>>>df=pd.DataFrame({'a':[2,3,4,2,4,6]})>>>result=df[df.a>3]>>>result.iloc[0]a4Name:2,dtype:int64#buthowcanIgettheoriginalrowindexofiloc[0]indf?我本可以完成df['row_index']=range(len(df))这将保持原始行号，但我想知道Pandas是否有

DataFrame python 行号 code section pandas indexing

Python Pandas : Convert 2, 000,000 DataFrame 行到二进制矩阵 (pd.get_dummies()) 没有内存错误？

我正在处理一个包含2,000,000行的大型记录文件。每行包含有关电子邮件的特征和分别用于非垃圾邮件或垃圾邮件的二进制标签[0,1]。我想将所有特征(例如email_type的值从[1,10]转换为二进制矩阵。这可以使用pd.get_dummies()来完成，它根据一列特征创建一个二进制矩阵。这对数据的小子样本非常有效，比如10,000行。但是，对于100,000+行，我看到错误Killed:9。为了解决这个问题，我尝试了以下方法:步骤:使用numpyp.array_split()将DataFrame分成10,000行的block为每个10,000行的DataFrame创建一个二进制矩

get_dummies 000 code super section python performance pandas numpy bigdata

python - 在 pandas DataFrame 中查找(仅)满足给定条件的第一行

我有一个数据框df，其中有一列很长的随机正整数:df=pd.DataFrame({'n':np.random.randint(1,10,size=10000)})我想确定列中第一个偶数的索引。一种方法是:df[df.n%2==0].iloc[0]但这涉及很多操作(生成索引f.n%2==0，对这些索引计算df，最后取第一项)并且非常减缓。像这样的循环要快得多:forjinrange(len(df)):ifdf.n.iloc[j]%2==0:break也因为第一个结果可能在前几行。是否有任何pandas方法可以以类似的性能执行此操作？谢谢。注意:这个条件(为偶数)只是一个例子。我正在寻找一

给定 DataFrame code condition df python pandas

python - 使用包含新标签的数据附加带有 MultiIndex 的 pandas DataFrame，但保留旧 MultiIndex 的整数位置

基本场景对于推荐服务，我正在针对一组用户-项目交互训练矩阵分解模型(LightFM)。为了使矩阵分解模型产生最佳结果，我需要将我的用户ID和商品ID映射到从0开始的连续整数ID范围。我在此过程中使用了pandasDataFrame，我发现MultiIndex非常方便地创建此映射，如下所示:ratings=[{'user_id':1,'item_id':1,'rating':1.0},{'user_id':1,'item_id':3,'rating':1.0},{'user_id':3,'item_id':1,'rating':1.0},{'user_id':3,'item_id':3,

MultiIndex DataFrame code user 39 python pandas numpy recommendation-engine categorical-data