草庐IT

dataframe

全部标签

python - PySpark:TypeError:条件应为字符串或列

我正在尝试过滤基于如下的RDD:spark_df=sc.createDataFrame(pandas_df)spark_df.filter(lambdar:str(r['target']).startswith('good'))spark_df.take(5)但出现以下错误:TypeErrorTraceback(mostrecentcalllast)in()1spark_df=sc.createDataFrame(pandas_df)---->2spark_df.filter(lambdar:str(r['target']).startswith('good'))3spark_df.t

python - Pandas Dataframe 多索引合并

我想问一个关于在pandas中合并多索引数据框的问题,这是一个假设的场景:arrays=[['bar','bar','baz','baz','foo','foo','qux','qux'],['one','two','one','two','one','two','one','two']]tuples=list(zip(*arrays))index1=pd.MultiIndex.from_tuples(tuples,names=['first','second'])index2=pd.MultiIndex.from_tuples(tuples,names=['third','fourt

python - 使用 Pandas 将文本数据从请求对象转换为数据框

我正在使用请求创建一个.csv格式的对象。我怎样才能将该对象写入带有pandas的DataFrame?获取文本格式的请求对象:importrequestsimportpandasaspdurl=r'http://test.url'r=requests.get(url)r.text#thiswillreturnthedataastextincsvformat我试过了(没用):pd.read_csv(r.text)pd.DataFrame.from_csv(r.text) 最佳答案 试试这个importrequestsimportpan

python - 如何根据现有列的多个条件分配值?

我想根据以下条件创建一个具有数值的新列:一个。如果性别是男&pet1==pet2,points=5如果性别是女性&(pet1是“猫”或pet1是“狗”),分=5所有其他组合,points=0genderpet1pet20maledogdog1malecatcat2maledogcat3femalecatsquirrel4femaledogdog5femalesquirrelcat6squirreldogcat我希望最终结果如下:genderpet1pet2points0maledogdog51malecatcat52maledogcat03femalecatsquirrel54fema

python - pandas DataFrame 多列的并排箱线图

一年的样本数据:importpandasaspdimportnumpy.randomasrndimportseabornassnsn=365df=pd.DataFrame(data={"A":rnd.randn(n),"B":rnd.randn(n)+1},index=pd.date_range(start="2017-01-01",periods=n,freq="D"))我想按月份并排绘制这些数据的箱线图(即,每月两个箱子,一个用于A,一个用于B)。对于单列sns.boxplot(df.index.month,df["A"])工作正常。但是,sns.boxplot(df.index.

python - 带有 HappyBase 连接池的 PySpark dataframe.foreach() 返回 'TypeError: can' t pickle thread.lock 对象'

我有一个PySpark作业可以更新HBase中的一些对象(Sparkv1.6.0;happybasev0.9)。如果我为每一行打开/关闭一个HBase连接,它会有点工作:defprocess_row(row):conn=happybase.Connection(host=[hbase_master])#updateHBaserecordwithdatafromrowconn.close()my_dataframe.foreach(process_row)几千次更新插入后,我们开始看到这样的错误:TTransportException:Couldnotconnectto[hbase_ma

python - 使用 Python 将 Pandas DataFrame 导出为 PDF 文件

在Pandas中为数据框生成PDF的有效方法是什么? 最佳答案 首先使用matplotlib绘制表格,然后生成pdfimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfrommatplotlib.backends.backend_pdfimportPdfPagesdf=pd.DataFrame(np.random.random((10,3)),columns=("col1","col2","col3"))#https://stackoverflow.com/ques

python - 更改 pandas datetime64 列的时间组件

我有一个可以简化为的数据框:dateid002/04/201502:341106/04/201512:342209/04/201523:033312/04/201501:004415/04/201507:125521/04/201512:596629/04/201517:337704/05/201510:448806/05/201511:129910/05/201508:52101012/05/201514:19111119/05/201519:22121227/05/201522:31131301/06/201511:09141404/06/201512:57151510/06/20

python - 将 NumPy 数组与 pandas DataFrame 连接(加入)

我有一个包含10行和5列的pandas数据框以及一个由零组成的numpy矩阵np.zeros((10,3))。我想将numpy矩阵连接到pandas数据帧,但我想在将numpy数组连接到它之前从pandas数据帧中删除最后一列。所以我最终会得到一个包含10行和5-1+3=7列的矩阵。我想我可以用new_dataframe=pd.concat([original_dataframe,pd.DataFrame(np.zeros((10,3)),dtype=np.int)],axis=1,ignore_index=True)其中original_dataframe有10行和5列。如何在连接n

python - 如何从 pandas DataFrame 生成 n 级分层 JSON?

是否有一种有效的方法来创建分层JSON(n层深),其中父值是键而不是变量标签?即:{"2017-12-31":{"Junior":{"Electronics":{"A":{"sales":0.440755}},{"B":{"sales":-3.230951}}},...etc...},...etc...},...etc...1。我的测试DataFrame:colIndex=pd.MultiIndex.from_product([['NewYork','Paris'],['Electronics','Household'],['A','B','C'],['Junior','Senior'