NUMPY

python - 从 pandas 转换为 numpy 时如何保留列名

根据tothispost，我应该能够访问ndarray中列的名称作为a.dtype.names但是，如果我使用df.as_matrix()或df.values将pandasDataFrame转换为ndarray，则dtype.names字段为None。此外，如果我尝试将列名分配给ndarrayX=pd.DataFrame(dict(age=[40.,50.,60.],sys_blood_pressure=[140.,150.,160.]))printXprinttype(X.as_matrix())#printtype(X.as_matrix()[0])#m=X.as_matrix()

列名 python code 39 pre pandas numpy

Python Numpy 类型错误 : ufunc 'isfinite' not supported for the input types

这是我的代码:deftopK(dataMat,sensitivity):meanVals=np.mean(dataMat,axis=0)meanRemoved=dataMat-meanValscovMat=np.cov(meanRemoved,rowvar=0)eigVals,eigVects=np.linalg.eig(np.mat(covMat))我在上面最后一行的标题中发现了错误。我怀疑与数据类型有关，因此，这是Spyder中变量资源管理器中变量和数据类型的图像:我尝试将np.linalg.eig(np.mat(covMat))更改为np.linalg.eig(np.array(

amp supported code section strong python arrays pandas numpy eigenvalue

python - 从python中的对数正态分布生成随机数

我需要在Python中根据对数正态分布生成伪随机数。问题是我从对数正态分布的众数和标准差开始。我没有对数正态分布的均值或中位数，也没有基础正态分布的任何参数。numpy.random.lognormal取基础正态分布的均值和标准差。我试图根据我拥有的参数来计算这些，但最终得到了一个四次函数。它有一个解决方案，但我希望有一个更直接的方法来做到这一点。scipy.stats.lognorm接受我不明白的参数。我的母语不是英语，文档没有意义。你能帮帮我吗？最佳答案您拥有对数正态分布的众数和标准差。要使用scipy的lognorm的rv

python 从 code pre mode numpy scipy

python - gensim word2vec - 在线词嵌入更新中的数组维度

来自gensim0.13.4.1的Word2Vec无法动态更新词向量。model.build_vocab(sentences,update=False)工作正常；然而，model.build_vocab(sentences,update=True)没有。我正在使用thiswebsite尝试效仿他们所做的事情；因此我在某些时候使用了以下脚本:model=gensim.models.Word2Vec()sentences=gensim.models.word2vec.LineSentence("./text8/text8")model.build_vocab(sentences,keep_

word2vec python sentences gensim update numpy

python - 应用于行的几何平均数

我以这个数据框为例:Col1Col2Col3Col41232.2我想添加一个名为“Gmean”的第4列，用于计算每行前3列的几何平均值。如何完成？谢谢! 最佳答案一种方法是使用Scipy'sgeometricmeanfunction-fromscipy.stats.mstatsimportgmeandf['Gmean']=gmean(df.iloc[:,:3],axis=1)使用formulaofgeometricmean的另一种方式本身-df['Gmean']=np.power(df.iloc[:,:3].prod(axis=1

python 应用 code section noreferrer pandas numpy scipy

python - 具有每列模式的多列 Pandas Fillna

处理人口普查数据时，我想用这两列各自的模式替换两列(“workclass”和“native-country”)中的NaN。我可以轻松获得这些模式:mode=df.filter(["workclass","native-country"]).mode()它返回一个数据框:workclassnative-country0PrivateUnited-States但是，df.filter(["workclass","native-country"]).fillna(mode)不会用任何东西替换每列中的NaN，更不用说与该列对应的模式了。有没有一种流畅的方法可以做到这一点？

多列 python code native-country United-States pandas numpy data-science

Python NumPy : replace values in one array with corresponding values in another array

我正在使用PythonNumpy数组(特别是将栅格转换为二维数组)，我想做的是取一个数组，该数组具有代表“无数据”的任意虚拟值-999，我想用来自正确位置的相同大小和形状的不同数组的相应“真实”值。我找不到与此非常相似的问题，但请注意我是Python和Numpy的新手。但我想做的是:array_a=([[0.564,-999,-999],[0.234,-999,0.898],[-999,0.124,0.687],[0.478,0.786,-999]])array_b=([[0.324,0.254,0.204],[0.469,0.381,0.292],[0.550,0.453,0.349

values array section 999 python arrays python-2.7 numpy

python - 检查两个 numpy 数组是否相同

假设我有一堆数组，包括x和y，我想检查它们是否相等。通常，我可以只使用np.all(x==y)(除了一些我现在忽略的愚蠢的极端情况)。然而，这会计算(x==y)的整个数组，这通常是不需要的。我的数组真的很大，我有很多，两个数组相等的概率很小，所以十有八九，我真的只需要计算(x==y)的很小一部分在all函数可能返回False之前，所以这对我来说不是最佳解决方案。我已经尝试使用内置的all函数，结合itertools.izip:all(val1==val2forval1,val2initertools.izip(x,y))但是，在两个数组相等的情况下，这似乎要慢得多，总的来说，它仍然不值

python numpy code section all

python - 为什么在一种情况下 pandas 数据框的一列中的值变化快而在另一种情况下变化慢？

我有两段代码似乎做同样的事情，但其中一段比另一段快将近一千倍。这是第一部分:t1=time.time()df[new_col]=np.where(df[col]在ts我有这样的值:0.0007321834564208984,0.0002918243408203125,0.0002799034118652344相比之下，这部分代码:t1=time.time()df['new_col']=np.where((df[col]>=i1)&(df[col]创建ts并填充如下值:0.11008906364440918,0.09556794166564941,0.08580684661865234我

python pandas code pre 39 performance numpy

python - 在使用 numpy 读取 txt 文件时跳过包含字符串的结尾行以生成数值数组

我正在尝试生成一个从Internet读取文本文件的数组。我的目标是使用Python而不是MATLAB，在MATLAB中替换这一步:url=['http://www.cdc.noaa.gov/Correlation/amon.us.long.data'];urlwrite(url,'file.txt');我正在使用这段代码:urllib.urlretrieve('http://www.cdc.noaa.gov/Correlation/amon.us.long.data','/Users/epy/file2.txt')a=np.loadtxt('/Users/epy/file2.txt',

尾行 python section code numpy scipy

38 39 404142 43 44