NaN

python - Pandas:为什么附加到 float 和整数的数据帧比充满 NaN 的数据帧要慢

我正在从一个文件中获取数据，该文件通过SierraChart从InteractiveBrokers5秒OHLCVT柱接收数据。按照早期帖子中的建议，我没有将每个新行附加到数据框，而是使用历史文件构建了一个数据框，并向其附加了5000个具有正确时间戳的“空白”记录。然后我将每个新行写在空白行上，如果时间戳丢失并更新指针则填充任何行。这很好用。这是当前的classesandfunctions.我的初始版本创建了5000行NaN(OHLCVxyz)。我认为从结束数据类型开始会更整洁，因此将“空白”记录转换为零，其中OHLC是float，Vxyz是整数，使用:dg.iloc[0:5000]=0

充满 python strong 的 float casting pandas

python - numpy 数组的平均值返回 NaN

我有一个包含超过330,000行的np.array。我只是尝试取它的平均值，它返回NaN。即使我尝试过滤掉数组中任何可能的NaN值(无论如何都不应该有)，average也会返回NaN。我在做一些完全古怪的事情吗？我的代码在这里:average(ngma_heat_daily)Out[70]:nanaverage(ngma_heat_daily[ngma_heat_daily!=nan])Out[71]:nan 最佳答案试试这个:>>>np.nanmean(ngma_heat_daily)此函数在取平均值之前从数组中删除NaN值。编

python numpy ngma_heat_daily code section arrays

python - 用 numpy.NaN 初始化 scipy.sparse 矩阵的最快方法是什么？

我想用numpy数组初始化一个稀疏矩阵。numpy数组包含NaN作为我程序的零，初始化稀疏矩阵的代码如下:a=np.array([[np.NaN,np.NaN,10]])zero_a=np.array([[0,0,10]])spr_a=lil_matrix(a)zero_spr_a=lil_matrix(zero_a)printrepr(spr_a)printrepr(zero_spr_a)输出是1x3sparsematrixoftype'type'numpy.float64''with3storedelementsinLInkedListformat1x3sparsematrixof

最快 python code gt section scipy

python - 如何忽略颜色栏中的 NaN？

我有一个3d表面，伴随着一个颜色条，由生成surf=ax.plot_surface(xv,yv,zv,...)cb=fig.colorbar(surf)当它工作时，它看起来像这样:问题是某些值可能是NaN，在这种情况下颜色条无法生成，如下所示:C:\Users\Sam\Anaconda\lib\site-packages\matplotlib\colorbar.py:581:RuntimeWarning:invalidvalueencounteredingreaterinrange=(ticks>-0.001)&(ticks-0.001)&(ticks我可以尝试将zv的NaN值替换为0

python NaN code section image matplotlib

python - 如何使用数据矩阵中的 nans 计算相关矩阵

当数据中存在NaN时，我找不到一个函数来计算包含两个以上变量观测值的数组的相关系数矩阵。有些函数对变量对执行此操作(或者只是使用~is.nan()屏蔽数组)。但是通过遍历大量变量来使用这些函数，计算每对变量的相关性可能非常耗时。所以我自己尝试并很快意识到这样做的复杂性是协方差的正确归一化问题。我很想听听您对如何操作的意见。代码如下:defnancorr(X,nanfact=False):X=X-np.nanmean(X,axis=1,keepdims=True)*np.ones((1,X.shape[1]))ifnanfact:mask=np.isnan(X).astype(int)f

python nans NaN code section numpy scipy correlation

python - 在 matplotlib 中为 NaN 值设置颜色

我正在尝试绘制一些数组的颜色，并将一些值转换为np.nan(以便于解释)并在绘制时期望不同的颜色(白色？)，但它会导致绘图和颜色条出现问题。#thisisbeforeconvertedtonanarray=np.random.rand(4,10)plt.pcolor(array)plt.colorbar(orientation='horizontal')#conditionalvalueconvertedtonanarray=np.random.rand(4,10)array[array有什么建议吗？最佳答案解决方案之一是绘制屏

matplotlib python array section image numpy nan colorbar

python - 如何使用Python计算最近三个非nan值的平均值

我有一个数据框df看起来像下面这样。我想计算最后3个非nan列的平均值。如果少于三个非缺失列，则平均数缺失。nameday1day2day3day4day5day6day7A11nan2303Bnannannannannannan3C1101111D1101nan14预期输出应该如下所示nameday1day2day3day4day5day6day7expectedA11nan23032我知道如何计算最后三列的平均值并计算有多少个非缺失观察值。df.iloc[:,5:7].count(axis=1)averageofthelastthreecolumndf.iloc[:,5:7].co

python day nan code pandas numpy

python - Pandas TimeSeries 重采样产生 NaN

我正在对PandasTimeSeries进行重采样。时间序列由二进制值(它是一个分类变量)组成，没有缺失值，但在重新采样后出现NaN。这怎么可能？我不能在这里发布任何示例数据，因为它是敏感信息，但我按如下方式创建和重新采样该系列:series=pd.Series(data,ts)series_rs=series.resample('60T',how='mean') 最佳答案 upsampling转换为固定时间间隔，因此如果没有样本，您将得到NaN。您可以通过fill_method='bfill'或正向填充缺失值-fill_metho

TimeSeries python 01 2015 00 pandas time-series resampling

python - python 时间序列中的缺失值

我有一个时间序列数据框，该数据框很大并且在2列(“湿度”和“压力”)中包含一些缺失值。我想以一种巧妙的方式来估算这些缺失值，例如使用最近邻居的值或前后时间戳的平均值。有没有简单的方法可以做到这一点？我尝试过使用fancyimpute，但数据集包含大约180000个示例并给出内存错误最佳答案考虑插值(Series-DataFrame)。此示例显示如何用直线填充任何大小的间隙:df=pd.DataFrame({'date':pd.date_range(start='2013-01-01',periods=10,freq='H'),'

python 缺失 01 2013 00 pandas nan imputation

Python:如何用数据框中的条件替换 NaN？

我有一个数据帧df1对应于网络中nodes的egelist和节点本身的value，如下所示:dfnode_inode_jvalue_ivalue_j034893313289NaN235896930245NaN4034589512109NaN618109NaN如果有值，我想添加一个与value_j对应的列w。如果value_j是NaN我想将w设置为i的相邻节点值的平均值.如果node_i只有相邻节点的NaN值设置为w=1。所以最终的数据框应该像傻瓜一样:dfnode_inode_jvalue_ivalue_jw03489333313289NaN51#averageofadjacentno

何用 Python code value value_j pandas apply

18 19 202122 23 24