草庐IT

pyspark-dataframes

全部标签

python - 如何将 Pandas Dataframe 写入现有的 Django 模型

我正在尝试将PandasDataFrame中的数据插入到使用SQLite后端的现有Django模型Agency中。但是,按照HowtowriteaPandasDataframetoDjangomodel上的答案和SavingaPandasDataFrametoaDjangoModel导致整个SQLite表被替换并破坏Django代码。具体是Django自动生成的id主键列被index替换导致渲染模板时出错(nosuchcolumn:agency.id)。下面是在SQLite表agency上使用Pandasto_sql的代码和结果。在models.py中:classAgency(mode

apache-spark - 如何在 pyspark 流应用程序中使用具有不同主题的两个不同流将数据从 Kafka 存储到 Redis?

我有一个配置2个数据流的pyspark应用程序:数据流A)从kafka中读取(主题1和2)->合并主题DStreams->做一些事情->输出到REDIS。数据流B)从kafka读取(主题3、4和5)->合并主题DStreams->做一些事情->输出到相同的REDIS。只有配置了其中一个,我才能在REDIS中获取数据,但不能同时配置两个。实际上,即使我将REDIS输出更改为pprint,也会发生这种情况。如果两个流中只有一个处于事件状态,我只会打印输出。我错过了什么? 最佳答案 问题在于可用的执行线程数。Spark文档说每个接收器都使

python - 使用 pySpark 将 DataFrame 写入 mysql 表

我正在尝试将记录插入到MySql表中。该表包含id和name作为列。我在pysparkshell中执行以下操作。name='tester_1'id='103'importpandasaspdl=[id,name]df=pd.DataFrame([l])df.write.format('jdbc').options(url='jdbc:mysql://localhost/database_name',driver='com.mysql.jdbc.Driver',dbtable='DestinationTableName',user='your_user_name',password='y

python - 如何使用 pymysql 将 mySQL 查询结果存储到 pandas DataFrame 中?

我正在尝试使用pymysql将mySQL查询结果存储在pandasDataFrame中,并且在构建数据帧时遇到错误。发现了一个类似的问题here和here,但似乎抛出了pymysql特定的错误:importpandasaspdimportdatetimeimportpymysql#dummyvaluesconnection=pymysql.connect(user='username',password='password',databse='database_name',host='host')start_date=datetime.datetime(2017,11,15)end_d

将大量.rdata文件(R DataFrames)加载到SQL Server中的最快方法是什么?

我目前正在使用库(RODBC)通过:dbhandle这个问题是,将1000万行加载到SQLServer中大约需要5个小时。也有时加载时会破裂。因此,我将.rdata分解为较小的块,然后将其顺序加载到SQLServer中。有什么更快的方法可以实现这一目标吗?看答案我会以CSV格式导出数据并使用BULKINSERT。如果你真的想要(或有)使用SQLSAVE,那么,我想到的唯一选择是:确保设置fast=TRUE在sqlsave中在运行SQLSAVE之前设置自动提交:odbcSetAutoCommit(dbhandle,autoCommit=FALSE)并在sqlsave之后提交odbcEndTran

apache-spark - Pyspark 简单的重新分区和 toPandas() 未能在 600,000+ 行上完成

我有JSON数据,我正在将这些数据读入一个包含多个字段的数据框中,根据两列对其进行重新分区,然后转换为Pandas。这项作业在仅600,000行数据上的EMR上不断失败,并带有一些模糊的错误。我还增加了Spark驱动程序的内存设置,但仍然看不到任何分辨率。这是我的pyspark代码:enhDataDf=(sqlContext.read.json(sys.argv[1]))enhDataDf=(enhDataDf.repartition('column1','column2').toPandas())enhDataDf=sqlContext.createDataFrame(enhData

c++ - 用于 C++ 的 DataFrame(如在 R 或 Pandas 中)

已结束。此问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提出有关书籍、工具、软件库等方面的建议的问题。您可以编辑问题,以便用事实和引用来回答它。关闭5年前。Improvethisquestion是否有C++库提供类似于R或Pandas的DataFrame的数据结构?我最感兴趣的是:表格数据的数据结构,列可以是不同的类型(float、整数、字符串...),选择、过滤、合并、组合、分组等操作。 最佳答案 您还可以查看xtensorC++库,它的API非常接近numpy,并且还可以处理缺失值。奖励点

python - 在 PySpark ML 中创建自定义 Transformer

我是SparkSQLDataFrames和ML的新手(PySpark)。如何创建自定义标记器,例如删除停用词并使用nltk中的一些库?我可以扩展默认的吗? 最佳答案 CanIextendthedefaultone?不是真的。默认Tokenizer是pyspark.ml.wrapper.JavaTransformer的子类,并且与来自pyspark.ml.feature的其他转换器和估计器相同,代表对其Scala对应物的实际处理。既然你想使用Python,你应该直接扩展pyspark.ml.pipeline.Transformer。i

python - Pyspark:显示数据框列的直方图

在pandas数据框中,我使用以下代码绘制列的直方图:my_df.hist(column='field_1')在pyspark数据框中有什么东西可以实现相同的目标吗?(我在JupyterNotebook中)谢谢! 最佳答案 不幸的是,我认为PySparkDataframesAPI中没有干净的plot()或hist()函数,但我希望事情最终会发生往那个方向走。目前,您可以在Spark中计算直方图,并将计算出的直方图绘制为条形图。示例:importpandasaspdimportpyspark.sqlassparksql#Let'sus

python - PySpark 和广播连接示例

我使用的是Spark1.3#Readfromtextfile,parseitandthendosomebasicfilteringtogetdata1data1.registerTempTable('data1')#Readfromtextfile,parseitandthendosomebasicfilteringtogetdata1data2.registerTempTable('data2')#Performjoindata_joined=data1.join(data2,data1.id==data2.id);我的数据非常倾斜,data2(几KB)