草庐IT

feature-extraction

全部标签

python - XGBoost 图重要性没有属性 max_num_features

xgboost的plottingAPI状态:xgboost.plot_importance(booster,ax=None,height=0.2,xlim=None,ylim=None,title='Featureimportance',xlabel='Fscore',ylabel='Features',importance_type='weight',max_num_features=None,grid=True,**kwargs)¶根据拟合树绘制重要性。参数:booster(Booster,XGBModelordict)–BoosterorXGBModelinstance,ordi

python - 具有 scikit-image local_binary_pattern 函数的统一 LBP

我正在使用skimage.feature中的local_binary_pattern和这样的统一模式:>>>fromskimage.featureimportlocal_binary_pattern>>>lbp_image=local_binary_pattern(some_grayscale_image,8,2,method='uniform')>>>histogram=scipy.stats.itemfreq(lbp_image)>>>printhistogram[[0.00000000e+001.57210000e+04][1.00000000e+001.86520000e+04

python - 使用来自 sklearn.feature_extraction.text.TfidfVectorizer 的 TfidfVectorizer 计算 IDF

我认为函数TfidfVectorizer没有正确计算IDF因子。例如,从tf-idffeatureweightsusingsklearn.feature_extraction.text.TfidfVectorizer复制代码:fromsklearn.feature_extraction.textimportTfidfVectorizercorpus=["Thisisverystrange","Thisisverynice"]vectorizer=TfidfVectorizer(use_idf=True,#utilizaoidfcomopeso,fazendotf*idfnorm=Non

python - 用于降维的 Scikit-learn 主成分分析 (PCA)

我想进行降维和数据集成的主成分分析。我有3个特征(变量)和5个样本,如下所示。我想通过转换它们(计算第一台PC)将它们集成到一维(1个特征)输出中。我想使用转换后的数据进行进一步的统计分析,因为我相信它显示了3个输入特征的“主要”特征。我首先使用scikit-learn使用python编写了一个测试代码,如下所示。这是简单的情况,即3个特征的值都相等。换句话说,我对三个相同的向量[0,1,2,1,0]应用了PCA。代码importnumpyasnpfromsklearn.decompositionimportPCApca=PCA(n_components=1)samples=np.ar

python - sklearn随机森林索引feature_importances_如何做

我在sklearn中使用了RandomForestClassifier来确定数据集中的重要特征。我如何能够返回实际的特征名称(我的变量标记为x1、x2、x3等)而不是它们的相对名称(它告诉我重要的特征是“12”、“22”等)。以下是我目前用于返回重要功能的代码。important_features=[]forx,iinenumerate(rf.feature_importances_):ifi>np.average(rf.feature_importances_):important_features.append(str(x))printimportant_features此外,为了

python xlrd : how to convert an extracted value?

好吧,我有一个问题,根据我在这里找到的内容,我觉得我已经回答了好几次。然而,作为一个新手,我真的不能理解如何执行一个真正基本的操作。事情是这样的:我有一个.xls,当我使用xlrd获取一个值时,我只是在使用sh.cell(0,0)(假设sh是我的工作表);如果单元格中的内容是字符串,我会得到类似text:u'MyName'的内容,我只想保留字符串'MyName';如果单元格中的内容是数字,我会得到类似于number:201.0的内容,我只想保留整数201。如果有人能告诉我我应该如何只提取我想要的格式的值,谢谢。 最佳答案 sh.ce

php - Python 相当于 PHP 的 compact() 和 extract()

compact()和extract()是PHP中的函数,我觉得非常方便。compact()获取符号表中的名称列表,并创建一个仅包含它们的值的哈希表。提取物则相反。例如,$foo='what';$bar='ever';$a=compact('foo','bar');$a['foo']#what$a['baz']='another'extract(a)$baz#another有没有办法在Python中做同样的事情?我环顾四周,最接近的是thisthread,似乎对此皱眉。我知道locals()、globals()和vars(),但我怎样才能轻松地选择它们值的一个子集?Python是否有更好

python - OpenCV 找到正确的阈值来确定图像匹配与否与匹配分数

我目前正在使用各种特征提取器和各种匹配器制作识别程序。使用匹配器的分数,我想创建一个分数阈值,它可以进一步确定它是正确匹配还是错误匹配。我正在尝试了解各种匹配器的DMatch距离含义,距离值越小匹配越好吗?如果是,我很困惑,因为具有不同位置的相同图像返回的值比两个不同的图像更大。我运行了两个测试用例:将一张图片与不同位置的相同图片进行比较等。将一张图片与具有几个不同位置的完全不同的图片进行比较,等等。这是我的测试结果:-----------------------------------------------PositiveimageaveragedistanceTotaltestn

python - 多个分类特征(列)的特征散列

我想将“流派”特征散列到6列中,并将“出版商”特征单独放入另外六列中。我想要像下面这样的东西:GenrePublisher0123450123450PlatformNintendo0.02.02.0-1.01.00.00.02.02.0-1.01.00.01RacingNoir-1.00.00.00.00.0-1.0-1.00.00.00.00.0-1.02SportsLaura-2.02.00.0-2.00.00.0-2.02.00.0-2.00.00.03RoleplayingJohn-2.02.02.00.01.00.0-2.02.02.00.01.00.04PuzzleJohn

python - scikit 学习 : desired amount of Best Features (k) not selected

我正在尝试使用卡方(scikit-learn0.10)选择最佳特征。从总共80个训练文档中,我首先提取了227个特征,并从这227个特征中选择前10个特征。my_vectorizer=CountVectorizer(analyzer=MyAnalyzer())X_train=my_vectorizer.fit_transform(train_data)X_test=my_vectorizer.transform(test_data)Y_train=np.array(train_labels)Y_test=np.array(test_labels)X_train=np.clip(X_tr