缺失_草庐IT

python - DataFrame.interpolate() 推断尾随缺失数据

考虑以下示例，我们在其中设置示例数据集、创建MultiIndex、拆分数据帧，然后在逐行填充的位置执行线性插值:importpandasaspd#version0.14.1importnumpyasnp#version1.8.1df=pd.DataFrame({'location':['a','b']*5,'trees':['oaks','maples']*5,'year':range(2000,2005)*2,'value':[np.NaN,1,np.NaN,3,2,np.NaN,5,np.NaN,np.NaN,np.NaN]})df.set_index(['trees','loca

尾随推断 code 39 NaN python pandas interpolation

python - 如何以 pythonic 方式填充 Pandas dataframe 缺失的记录？

我有一个像这样的Pandas数据框“df”:XYIX1IX2AA12030A22030A52030BB22030B42030它丢失了一些行，我想像这样填补中间的空白:XYIX1IX2AA12030A22030A3NaNNaNA4NaNNaNA52030BB22030B3NaNNaNB42030有没有pythonic的方法来做到这一点？最佳答案您需要构建完整的索引，然后使用数据框的reindex方法。像这样...importpandasimportStringIOdatastring=StringIO.StringIO("""\C

缺失何以 39 NaN 20 python pandas

python - 使用 statsmodels 忽略多个 OLS 回归中的缺失值

我正在尝试使用statsmodels和pandas数据框运行多重OLS回归。不同行的不同列中存在缺失值，我不断收到错误消息:ValueError:数组不能包含infs或NaNs我看到了这个SO问题，它很相似但没有完全回答我的问题:statsmodel.api.Logit:valueerrorarraymustnotcontaininfsornans我想做的是运行回归并忽略所有缺少我在此回归中使用的变量的行。现在我有:importpandasaspdimportnumpyasnpimportstatsmodels.formula.apiassmdf=pd.read_csv('cl_030

缺失 statsmodels section formula python regression

python - 使用点符号字符串 "a.b.c.d.e"检查嵌套字典，自动创建缺失级别

给定以下字典:d={"a":{"b":{"c":"winning!"}}}我有这个字符串(来自外部来源，我无法更改这个比喻)。k="a.b.c"我需要确定字典是否有键'c'，如果没有我可以添加它。这可以很好地检索点符号值:reduce(dict.get,key.split("."),d)但我不知道如何“减少”has_key检查或类似的东西。我的最终问题是:给定"a.b.c.d.e"，我需要在字典中创建所有必要的元素，但如果它们已经存在，则不要踩踏它们。最佳答案您可以使用无限嵌套的defaultdict:>>>fromcollec

缺失 amp code gt 39 python dictionary nested defaultdict

python - 如何返回缺失数据计数为 0 的行？

几年(2003-2008年)我的数据(wrtdate)分布不均匀。我想查询一组给定的开始和结束日期的数据，按PostgreSQL8.3中任何支持的时间间隔(日、周、月、季度、年)对数据进行分组。.问题是一些查询在要求的时间段内给出连续的结果，比如这个:selectto_char(date_trunc('month',date),'YYYY-MM-DD'),count(distinctpost_id)fromsome_tablewherecategory_id=1andentity_id=77andentity2_id=115anddate='2007-12-01'groupbydate

缺失 python code 2008 date database postgresql left-join generate-series

处理零和缺失数据的 Python 非负矩阵分解？

我寻找具有python接口(interface)并处理丢失数据和零的NMF实现。我不想在开始因式分解之前估算缺失值，我希望它们在最小化函数中被忽略。似乎scikit-learn、nimfa、graphlab和mahout都没有提出这样的选项。谢谢! 最佳答案使用这个Matlabtopythoncodeconversionsheet我能够从Matlabtoolbox重写NMF图书馆。我必须分解一个稀疏度为0.7%的40kX1k矩阵。使用500个潜在特征，我的机器需要20分钟进行100次迭代。方法如下:importnumpyasnpf

缺失 Python code section 39 machine-learning scikit-learn collaborative-filtering matrix-factorization

python - numpy corrcoef - 在忽略缺失数据的同时计算相关矩阵

我正在尝试计算多个值的相关矩阵。这些值包括一些“nan”值。我正在使用numpy.corrcoef。对于输出相关矩阵的元素(i，j)，我想使用变量i和变量j存在的所有值计算相关性。这是我现在拥有的:In[20]:df_counties=pd.read_sql("SELECTMedian_Age,Rpercent_2008,overall_LS,population_densityFROMcountyVotingSM2",db_eng)In[21]:np.corrcoef(df_counties,rowvar=False)Out[21]:array([[1.,nan,nan,-0.109

缺失 corrcoef NaN code python numpy pandas correlation

python - 用之前的非缺失值填充缺失的 pandas 数据，按键分组

我正在像这样处理pandasDataFrames:idx01101120221003220041NaN52NaN6130071NaN我想用具有相同“id”值的行中的前一个非NAN“x”替换每个NAN“x”:idx0110112022100322004120522006130071300是否有一些巧妙的方法可以在不手动遍历行的情况下执行此操作？最佳答案您可以执行groupby/forward-fill对每个组的操作:importnumpyasnpimportpandasaspddf=pd.DataFrame({'id':[1,1,

缺失按键 section code pandas python nan missing-data data-cleaning

python - 保留 NaN 值并丢弃非缺失值

我有一个DataFrame，当特定变量具有NaN时，我想在其中保留行值并删除非缺失值。例子:tickeropinionx1x2aaplGC10070msftNaN5040googGC4060wmtGC4515abmNaN8090在上面的DataFrame中，我想删除所有未丢失意见的观察结果(因此，我想删除代码为aapl,goog,andwmt的行)。pandas中是否有与.dropna()相反的东西？？最佳答案使用pandas.Series.isnull在列上查找缺失值并用结果建立索引。importpandasaspddata=

缺失丢弃 code section 39 python pandas

java - 如何在 XSLT 中使用 XPath 获取元素数组，包括缺失的元素？

给定以下符合XML的HTML:a1b1b2a3b3c3正在做//a将返回:[a1,a3]上面的问题是第三列数据现在排在第二位，当找不到A时，它会被完全跳过。如何表达一个xpath来获取所有将返回的A元素:[a1,null,a3]//c的情况相同,请问有没有可能得到[null,null,c3]更新:考虑另一种没有共同parent的情况.heading1a1b1heading2b2heading3a3b3c3更新:我现在也可以使用XSLT。最佳答案 XPath中没有空值。这里有一个半相关的问题也解释了这一点:http://www.ve

缺失何在 code lt gt java html xml xslt xpath