草庐IT

dataframes

全部标签

python - 创建 Spark DataFrame。无法推断类型的架构

有人可以帮我解决SparkDataFrame遇到的这个问题吗?当我执行myFloatRDD.toDF()时出现错误:TypeError:Cannotinferschemafortype:type'float'我不明白为什么......例子:myFloatRdd=sc.parallelize([1.0,2.0,3.0])df=myFloatRdd.toDF()谢谢 最佳答案 SparkSession.createDataFrame,在引擎盖下使用,需要RDD/list的Row/tuple/list/dict*或pandas.DataF

python - 导出 pandas DataFrame 时如何删除列名行?

假设我将以下Excel电子表格导入数据框:Val1Val2Val3123567912如何删除列名行(在本例中为Val1、Val2、Val3)以便导出没有列名的csv,仅导出数据?我试过df.drop()和df.ix[1:]都没有成功。 最佳答案 您可以使用header=False写入没有header的csv,使用index=False写入没有索引的csv。如果需要,您还可以使用sep修改分隔符。没有标题行的CSV示例,省略了标题行:df.to_csv('filename.csv',header=False)TSV(制表符分隔)示例,

python - 将数组或 DataFrame 与其他信息一起保存在文件中

统计软件Stata允许将短文本片段保存在数据集中。这可以使用notes来完成。和/或characteristics.这对我来说很有值(value),因为它允许我保存各种信息,从提醒和待办事项列表到有关我如何生成数据的信息,甚至是特定变量的估计方法曾是。我现在正在尝试在Python3.6中提供类似的功能。到目前为止,我已经在网上查看并查阅了许多帖子,但是这些帖子并没有完全解决我想要做的事情。一些引用帖子包括:bestwaytopreservenumpyarraysondiskWhatisthedifferencebetweensaveapandasdataframetopickleand

python - 如何按一段时间对DataFrame进行分组?

我有一些来自日志文件的数据,想按一分钟对条目进行分组:defgen(date,count=10):whilecount>0:yielddate,"event{}".format(randint(1,9)),"source{}".format(randint(1,3))count-=1date+=DateOffset(seconds=randint(40))df=DataFrame.from_records(list(gen(datetime(2012,1,1,12,30))),index='Time',columns=['Time','Event','Source'])df:Event

python - Spark DataFrame 方法 `toPandas` 实际上在做什么?

我是Spark-DataFrameAPI的初学者。我使用此代码将制表符分隔的csv加载到SparkDataframe中lines=sc.textFile('tail5.csv')parts=lines.map(lambdal:l.strip().split('\t'))fnames=*somenamelist*schemaData=StructType([StructField(fname,StringType(),True)forfnameinfnames])ddf=sqlContext.createDataFrame(parts,schemaData)假设我使用Spark从新文件创

python - 替换整个 DataFrame 中的字符串/值

我有一个非常大的数据集,我想用数字替换字符串。我想在不为数据集中的每个键(列)键入映射函数的情况下对数据集进行操作。(类似于fillna方法,但将特定字符串替换为关联值)。有没有办法做到这一点?这是我的数据集示例datarespABC01poorpoorgood12goodpoorgood23verygoodverygoodverygood34badpoorbad45verybadverybadverybad56poorgoodverybad67goodgoodgood78verygoodverygoodverygood89badbadverybad910verybadverybadv

python - Pandas DataFrame concat vs append

我有一个包含4个Pandas数据框的列表,其中包含我想要合并到单个数据框中的一天的刻度数据。我无法理解concat在我的时间戳上的行为。请参阅下面的详细信息:data[DatetimeIndex:35228entries,2013-03-2800:00:07.089000+02:00to2013-03-2818:59:20.357000+02:00Datacolumns:Price4040non-nullvaluesVolume4040non-nullvaluesBidQty35228non-nullvaluesBidPrice35228non-nullvaluesAskPrice35

python - 对 pandas DataFrame 中的列进行 .str.split() 操作后获取最后一个 "column"

我在PandasDataFrame中有一个列,我想将其拆分为一个空格。DataFrame.str.split('')的拆分很简单,但我无法从最后一个条目创建新列。当我.str.split()列时,我得到一个数组列表,但我不知道如何操作它来为我的DataFrame获取一个新列。这是一个例子。列中的每个条目都包含“符号数据价格”,我想拆分价格(最终在一半的情况下删除“p”...或“c”)。importpandasaspdtemp=pd.DataFrame({'ticker':['spx5/25/2001p500','spx5/25/2001p600','spx5/25/2001p700']

python - 从 pandas DataFrame 中的分组数据绘制直方图

我需要一些指导来确定如何根据pandas数据框中的分组数据绘制直方图block。这是一个例子来说明我的问题:frompandasimportDataFrameimportnumpyasnpx=['A']*300+['B']*400+['C']*300y=np.random.randn(1000)df=DataFrame({'Letter':x,'N':y})grouped=df.groupby('Letter')在我的无知中,我尝试了这个代码命令:df.groupby('Letter').hist()失败并显示错误消息“TypeError:cannotconcatenate'str'a

python - Pandas Dataframe : split column into multiple columns, 右对齐不一致的单元格条目

我有一个pandas数据框,其中有一列名为“城市、州、国家/地区”。我想将此列分成三个新列,“City”、“State”和“Country”。0HUN1ESP2GBR3ESP4FRA5ID,USA6GA,USA7Hoboken,NJ,USA8NJ,USA9AUS将列拆分为三列已经很简单了:location_df=df['City,State,Country'].apply(lambdax:pd.Series(x.split(',')))但是,这会创建左对齐的数据:0120HUNNaNNaN1ESPNaNNaN2GBRNaNNaN3ESPNaNNaN4FRANaNNaN5IDUSANaN