草庐IT

sample_dataframe

全部标签

c# - C#.NET 中的 Pandas Dataframe 或类似工具

我目前正致力于实现Gurobi线性规划模型的C#版本,该模型之前是用Python构建的。我有许多CSV文件,我从中导入数据并创建pandas数据帧,我从这些数据帧中获取列以创建我在线性程序中使用的变量。使用dataframes创建变量的python代码如下:dataPath="C:/Users/XYZ/Desktop/LinearProgramming/TestData"routeData=pd.DataFrame.from_csv(os.path.join(dataPath,"DirectLink.csv"),index_col=None)#Creating3Python-dicti

python - 旋转 Panda DataFrame 的列名

我正在尝试从pandas制作格式良好的表格。我的一些列名称太长了。这些列的单元格很大,导致整个表格变得一团糟。在我的示例中,是否可以在显示时旋转列名称?data=[{'Waytoolongofacolumntobereasonable':4,'Four?':4},{'Waytoolongofacolumntobereasonable':5,'Four?':5}]pd.DataFrame(data) 最佳答案 类似于:data=[{'Waytoolongofacolumntobereasonable':4,'Four?':4},{'W

python - 对 Pandas Dataframe 的行求和

我有一个看起来像这样的记录DataFrame:stocks=pd.Series(['A','A','B','C','C'],name='stock')positions=pd.Series([100,200,300,400,500],name='positions')same1=pd.Series(['AA','AA','BB','CC','CC'],name='same1')same2=pd.Series(['AAA','AAA','BBB','CCC','CCC'],name='same2')diff=pd.Series(['A1','A2','B3','C1','C2'],nam

python - 使用 bokeh 或 matplotlib 的 Pandas DataFrame 分层饼图/ donut chart

我有以下pandasDataFrame(“A”是最后一列的标题;其余列是组合的层次索引):AkingdomphylumclassorderfamilygenusspeciesNoblasthit2496k__Archaeap__Euryarchaeotac__Thermoplasmatao__E2f__[Methanomassiliicoccaceae]g__vadinCA11s__6k__Bacteriap__c__o__f__g__s__5p__Actinobacteriac__Acidimicrobiiao__Acidimicrobialesf__g__s__0c__Actino

python - 在 Python 中从 Spark DataFrame 创建 labeledPoints

我使用python中的什么.map()函数从spark数据帧创建一组labeledPoints?如果标签/结果不是第一列,但我可以引用其列名“状态”,那么符号是什么?我使用这个.map()函数创建Python数据框:defparsePoint(line):listmp=list(line.split('\t'))dataframe=pd.DataFrame(pd.get_dummies(listmp[1:]).sum()).transpose()dataframe.insert(0,'status',dataframe['accepted'])if'NULL'indataframe.c

python - 如何从 ASCII 文件写入/读取带有 MultiIndex 的 Pandas DataFrame?

我希望能够为行和列索引创建一个带有MultiIndexes的PandasDataFrame,并从ASCII文本文件中读取它。我的数据如下:col_indx=MultiIndex.from_tuples([('A','B','C'),('A','B','C2'),('A','B','C3'),('A','B2','C'),('A','B2','C2'),('A','B2','C3'),('A','B3','C'),('A','B3','C2'),('A','B3','C3'),('A2','B','C'),('A2','B','C2'),('A2','B','C3'),('A2','B2

python - 在 DataFrame 对象上使用 rolling_apply

我正在尝试滚动计算成交量加权平均价格。为此,我有一个函数vwap可以为我执行此操作,如下所示:defvwap(bars):return((bars.Close*bars.Volume).sum()/bars.Volume.sum()).round(2)当我尝试将此函数与rolling_apply一起使用时,如图所示,出现错误:importpandas.io.dataaswebbars=web.DataReader('AAPL','yahoo')printpandas.rolling_apply(bars,30,vwap)AttributeError:'numpy.ndarray'obj

python - PySpark:在日期为字符串的范围内按日期字段过滤 DataFrame

我的数据框包含一个日期字段,它以字符串格式出现,例如'2015-07-02T11:22:21.050Z'我需要根据日期过滤DataFrame以仅获取上周的记录。所以,我尝试了一种映射方法,我使用strptime将字符串日期转换为日期时间对象:defmap_to_datetime(row):format_string='%Y-%m-%dT%H:%M:%S.%fZ'row.date=datetime.strptime(row.date,format_string)df=df.map(map_to_datetime)然后我会应用一个过滤器作为df.filter(lambdarow:row.d

python - Pandas:按行从 DataFrame 的特定列中选择值

给定一个包含多列的DataFrame,我们如何从特定列中逐行选择值来创建一个新的Series?df=pd.DataFrame({"A":[1,2,3,4],"B":[10,20,30,40],"C":[100,200,300,400]})columns_to_select=["B","A","A","C"]目标:[10,2,3,400]一种有效的方法是使用apply语句。df["cols"]=columns_to_selectdf.apply(lambdax:x[x.cols],axis=1)不幸的是,这不是矢量化操作,并且在大型数据集上需要很长时间。任何想法将不胜感激。

python - 在 Pandas DataFrame 中拆分列表

我有一个包含许多列的csv文件。使用pandas,我将这个csv文件读入数据框,并有一个日期时间索引和五六个其他列。其中一列是时间戳列表(下面的示例带有索引)CreateDateTimeStamps4/1/11[Timestamp('2012-02-2900:00:00'),Timestamp('2012-03-3100:00:00'),Timestamp('2012-04-2500:00:00'),Timestamp('2012-06-3000:00:00')]4/2/11[Timestamp('2014-01-3100:00:00')]6/8/11[Timestamp('2012-