dataframe_草庐IT

python - PySpark:TypeError:条件应为字符串或列

我正在尝试过滤基于如下的RDD:spark_df=sc.createDataFrame(pandas_df)spark_df.filter(lambdar:str(r['target']).startswith('good'))spark_df.take(5)但出现以下错误:TypeErrorTraceback(mostrecentcalllast)in()1spark_df=sc.createDataFrame(pandas_df)---->2spark_df.filter(lambdar:str(r['target']).startswith('good'))3spark_df.t

应为 TypeError code spark_df filter python apache-spark dataframe pyspark apache-spark-sql

python - Pandas Dataframe 多索引合并

我想问一个关于在pandas中合并多索引数据框的问题，这是一个假设的场景:arrays=[['bar','bar','baz','baz','foo','foo','qux','qux'],['one','two','one','two','one','two','one','two']]tuples=list(zip(*arrays))index1=pd.MultiIndex.from_tuples(tuples,names=['first','second'])index2=pd.MultiIndex.from_tuples(tuples,names=['third','fourt

多索 Dataframe 39 code index python pandas merge multi-index

python - 使用 Pandas 将文本数据从请求对象转换为数据框

我正在使用请求创建一个.csv格式的对象。我怎样才能将该对象写入带有pandas的DataFrame？获取文本格式的请求对象:importrequestsimportpandasaspdurl=r'http://test.url'r=requests.get(url)r.text#thiswillreturnthedataastextincsvformat我试过了(没用):pd.read_csv(r.text)pd.DataFrame.from_csv(r.text) 最佳答案试试这个importrequestsimportpan

为数 python section import code csv pandas dataframe python-requests

python - 如何根据现有列的多个条件分配值？

我想根据以下条件创建一个具有数值的新列:一个。如果性别是男&pet1==pet2,points=5如果性别是女性&(pet1是“猫”或pet1是“狗”)，分=5所有其他组合，points=0genderpet1pet20maledogdog1malecatcat2maledogcat3femalecatsquirrel4femaledogdog5femalesquirrelcat6squirreldogcat我希望最终结果如下:genderpet1pet2points0maledogdog51malecatcat52maledogcat03femalecatsquirrel54fema

python 如何 code cat dog pandas dataframe conditional-statements

python - pandas DataFrame 多列的并排箱线图

一年的样本数据:importpandasaspdimportnumpy.randomasrndimportseabornassnsn=365df=pd.DataFrame(data={"A":rnd.randn(n),"B":rnd.randn(n)+1},index=pd.date_range(start="2017-01-01",periods=n,freq="D"))我想按月份并排绘制这些数据的箱线图(即，每月两个箱子，一个用于A，一个用于B)。对于单列sns.boxplot(df.index.month,df["A"])工作正常。但是，sns.boxplot(df.index.

多列并排 code 34 section python pandas plot seaborn boxplot

python - 带有 HappyBase 连接池的 PySpark dataframe.foreach() 返回 'TypeError: can' t pickle thread.lock 对象'

我有一个PySpark作业可以更新HBase中的一些对象(Sparkv1.6.0；happybasev0.9)。如果我为每一行打开/关闭一个HBase连接，它会有点工作:defprocess_row(row):conn=happybase.Connection(host=[hbase_master])#updateHBaserecordwithdatafromrowconn.close()my_dataframe.foreach(process_row)几千次更新插入后，我们开始看到这样的错误:TTransportException:Couldnotconnectto[hbase_ma

amp HappyBase code section dataframe python apache-spark pyspark

python - 使用 Python 将 Pandas DataFrame 导出为 PDF 文件

在Pandas中为数据框生成PDF的有效方法是什么？最佳答案首先使用matplotlib绘制表格，然后生成pdfimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfrommatplotlib.backends.backend_pdfimportPdfPagesdf=pd.DataFrame(np.random.random((10,3)),columns=("col1","col2","col3"))#https://stackoverflow.com/ques

DataFrame python section stackoverflow matplotlib pandas pdf reportlab

python - 更改 pandas datetime64 列的时间组件

我有一个可以简化为的数据框:dateid002/04/201502:341106/04/201512:342209/04/201523:033312/04/201501:004415/04/201507:125521/04/201512:596629/04/201517:337704/05/201510:448806/05/201511:129910/05/201508:52101012/05/201514:19111119/05/201519:22121227/05/201522:31131301/06/201511:09141404/06/201512:57151510/06/20

datetime python 2015 00 12 pandas dataframe

python - 将 NumPy 数组与 pandas DataFrame 连接(加入)

我有一个包含10行和5列的pandas数据框以及一个由零组成的numpy矩阵np.zeros((10,3))。我想将numpy矩阵连接到pandas数据帧，但我想在将numpy数组连接到它之前从pandas数据帧中删除最后一列。所以我最终会得到一个包含10行和5-1+3=7列的矩阵。我想我可以用new_dataframe=pd.concat([original_dataframe,pd.DataFrame(np.zeros((10,3)),dtype=np.int)],axis=1,ignore_index=True)其中original_dataframe有10行和5列。如何在连接n

DataFrame python code section pandas numpy

python - 如何从 pandas DataFrame 生成 n 级分层 JSON？

是否有一种有效的方法来创建分层JSON(n层深)，其中父值是键而不是变量标签？即:{"2017-12-31":{"Junior":{"Electronics":{"A":{"sales":0.440755}},{"B":{"sales":-3.230951}}},...etc...},...etc...},...etc...1。我的测试DataFrame:colIndex=pd.MultiIndex.from_product([['NewYork','Paris'],['Electronics','Household'],['A','B','C'],['Junior','Senior'

DataFrame python 34 39 sales json pandas