pyspark-dataframes

python - 将大型 Pandas DataFrame 写入 SQL Server 数据库

我有74个相对较大的PandasDataFrame(大约34,600行和8列)，我试图尽快将它们插入到SQLServer数据库中。在做了一些研究之后，我了解到好的olepandas.to_sql函数不适用于向SQLServer数据库中进行如此大的插入，这是我最初采用的方法(非常慢-将近一个小时应用程序完成与使用mysql数据库时大约4分钟。)Thisarticle，以及许多其他StackOverflow帖子都帮助我指明了正确的方向，但是我遇到了障碍:出于上面链接中解释的原因，我正在尝试使用SQLAlchemy的核心而不是ORM。因此，我使用pandas.to_dict将数据帧转换为字典

DataFrame 大型 39 code format python sql-server pandas sqlalchemy

python - Pandas:水平组合两个 DataFrame

这个问题在这里已经有了答案:Concatenaterowsoftwodataframesinpandas(2个答案)关闭5年前。我有两个PandasDataFrame，每个都有不同的列。我想基本上将它们水平粘合在一起(它们每个都有相同的行数，所以这应该不是问题)。一定有一种简单的方法可以做到这一点，但我已经阅读了文档，concat不是我要找的(我不认为)。有什么想法吗？谢谢!

DataFrame python section notice span pandas

python - 如何从 Python 中创建的 Dataframe 中删除索引？

我通过使用以下命令合并2个列表创建了一个Dataframedf:importpandasaspddf=pd.DataFrame({'Name':list1,'Probability':list2})但我想删除第一列(索引列)并使名为Name的列成为第一列。我尝试使用deldf['index']和index_col=0。但他们没有工作。我还检查了reset_index()但这不是我需要的。我想从这样创建的数据框中完全删除整个索引列(如上所述)。有人请帮忙! 最佳答案您可以使用set_index,docs:importpandasas

中创 Dataframe code pandas section python python-3.x

python - 使用 Pandas DataFrame.sort() 时，我可以让它真正对行重新编号吗？

我总是对此感到惊讶:>data=DataFrame({'x':[1,2],'y':[2,1]})>data=data.sort('y')>dataxy121012>data['x'][0]1有没有办法让索引重新分配以适应新的排序？最佳答案就我而言，我很高兴排序不会丢弃索引信息。如果是这样，那么首先有一个索引而不是另一个列就没有多大意义了。如果您想将索引重置为一个范围，您可以:>>>dataxy121012>>>data.reset_index(drop=True)xy021112您可以根据需要重新分配或使用inplace=Tru

DataFrame python section code data pandas

python - 根据列值重复 pandas DataFrame 中的行

我有以下df:code.role.persons123.Janitor.3123.Analyst.2321.Vallet.2321.Auditor.5第一行表示我有3个人扮演看门人的角色。我的问题是我需要为每个人安排一行。我的df应该是这样的:df:code.role.persons123.Janitor.3123.Janitor.3123.Janitor.3123.Analyst.2123.Analyst.2321.Vallet.2321.Vallet.2321.Auditor.5321.Auditor.5321.Auditor.5321.Auditor.5321.Auditor.5

DataFrame python Auditor code 321 pandas repeat

python - 如何在 PySpark 的 UDF 中返回 "Tuple type"？

所有datatypesinpyspark.sql.typesare:__all__=["DataType","NullType","StringType","BinaryType","BooleanType","DateType","TimestampType","DecimalType","DoubleType","FloatType","ByteType","IntegerType","LongType","ShortType","ArrayType","MapType","StructField","StructType"]我必须编写一个返回元组数组的UDF(在pyspark中)

何在 amp 34 code section python apache-spark dataframe pyspark apache-spark-sql

python - 将标准 python 键值字典列表转换为 pyspark 数据框

考虑我有一个python字典键值对列表，其中键对应于表的列名，因此对于下面的列表如何将其转换为具有两个colsarg1arg2的pyspark数据帧？[{"arg1":"","arg2":""},{"arg1":"","arg2":""},{"arg1":"","arg2":""}]我怎样才能使用以下结构来做到这一点？df=sc.parallelize([...]).toDF上面代码中arg1arg2放在哪里(...) 最佳答案旧方法:sc.parallelize([{"arg1":"","arg2":""},{"arg1":""

python pyspark 34 arg section dictionary apache-spark

python - 将具有混合数据和类别的 pandas DataFrame 存储到 hdf5 中

我想将具有不同列的数据帧存储到一个hdf5文件中(在下面找到数据类型的摘录)。In[1]:mydfOut[1]:endTimeuint32distancefloat16signaturecategoryanchorNamecategorystationListobject在转换某些列(上面摘录中的signature和anchorName)之前，我使用了如下代码来存储它(效果很好):path='tmp4.hdf5'key='journeys'mydf.to_hdf(path,key,mode='w',complevel=9,complib='bzip2')但它不适用于类别，然后我尝试了以

DataFrame python 39 stationList code pandas

python - Pandas DataFrame.unstack() 更改行和列标题的顺序

我遇到了以下对行和列标题进行排序的问题。这里是重现这个的方法:X=pd.DataFrame(dict(x=np.random.normal(size=100),y=np.random.normal(size=100)))A=pd.qcut(X['x'],[0,0.25,0.5,0.75,1.0])#createafactorB=pd.qcut(X['y'],[0,0.25,0.5,0.75,1.0])#createanotherfactorg=X.groupby([A,B])['x'].mean()#doatwo-waybucketingprintg#thisgivesthefollo

DataFrame unstack code 0.0321 0.724 python pandas

python - 沿着时间序列索引连接 pandas DataFrame

我有两个较大的(提供了片段)pandasDateFrame，它们具有不相等的日期作为索引，我希望将它们合并为一个:NAB.AXCBA.AXCloseVolumeCloseVolumeDateDate2009-06-0536.5149629002009-06-0821.9502009-06-0436.7955288002009-06-0521.9589170002009-06-0336.8051165002009-06-0422.21187236002009-06-0236.3353037002009-06-0323.11116438002009-06-0136.165625500200

沿着 DataFrame 2009 NaN 39 python numpy scipy pandas yahoo-finance

45 46 474849 50 51