草庐IT

scikit-bio

全部标签

python - 在 scikit learn 中结合网格搜索和交叉验证

为了改进支持向量机结果,我必须使用网格搜索来搜索更好的参数和交叉验证。我不确定如何在scikit-learn中组合它们。网格搜索搜索最佳参数(http://scikit-learn.org/stable/modules/grid_search.html)和交叉验证避免过度拟合(http://scikit-learn.org/dev/modules/cross_validation.html)#GRIDSEARCHfromsklearnimportgrid_searchparameters={'kernel':('linear','rbf'),'C':[1,10]}svr=svm.SVC

python - 如何在 scikit-learn 的管道内对转换参数进行网格搜索

我的目标是使用一个模型选择最重要的变量,并使用另一个模型使用这些变量进行预测。在下面的示例中,我使用了两个RandomForestClassifier,但第二个模型可以是任何其他分类器。RF有一个带有阈值参数的转换方法。我想对不同的可能阈值参数进行网格搜索。这是一个简化的代码片段:#Transformobjectandclassifierrf_filter=RandomForestClassifier(n_estimators=200,n_jobs=-1,random_state=42,oob_score=False)clf=RandomForestClassifier(n_jobs=

python - 理解python scikit-learn中的文本特征提取TfidfVectorizer

阅读scikit-learn中文本特征提取的文档,我不确定可用于TfidfVectorizer(也可能是其他矢量化器)的不同参数如何影响结果。以下是我不确定它们如何工作的参数:TfidfVectorizer(stop_words='english',ngram_range=(1,2),max_df=0.5,min_df=20,use_idf=True)文档清楚地说明了stop_words/max_df的使用(两者都有类似的效果,可能是一个可以代替另一个)。但是,我不确定这些选项是否应该与ngrams一起使用。哪个先发生/处理,ngrams还是stop_words?为什么?根据我的实验,

python - 原始 xgboost(学习 API)和 sklearn XGBClassifier(Scikit-Learn API)之间的区别

我使用下面的xgbootssklearn界面来创建和训练xgbmodel-1。clf=xgb.XGBClassifier(n_estimators=100,objective='binary:logistic',)clf.fit(x_train,y_train,early_stopping_rounds=10,eval_metric="auc",eval_set=[(x_valid,y_valid)])而xgboost模型可以通过原始xgboost创建如下model-2:param={}param['objective']='binary:logistic'param['eval_me

python - scikit-learn 管道中的 transformer_weights 有什么用?

只是scikit-learn的pipeline的一个小问题。在sklearn.pipeline.FeatureUnion类中,有一个transformer_weights选项。transformer_weights:dict,optional:Multiplicativeweightsforfeaturespertransformer.Keysaretransformernames,valuestheweights.我在一个例子中看到了对不同特征赋予不同权重的用法。transformer_weights={'subject':0.8,'body_bow':0.5,'body_stats

python - 使用 Scikit Learn K-Means 大放异彩

我正在尝试使Blaze数据对象适合scikitkmeans函数。fromblazeimport*fromsklearn.clusterimportKMeansdata_numeric=Data('data.csv')data_cluster=KMeans(n_clusters=5)data_cluster.fit(data_numeric)数据样本:ABC1323455792896721它的抛出错误:我已经能够使用PandasDataframe做到这一点。有什么方法可以将blaze对象提供给此函数? 最佳答案 我认为您需要在适合之前

python - 在 scikit-learn 管道中获取中间数据状态

给定以下示例:fromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.decompositionimportNMFfromsklearn.pipelineimportPipelineimportpandasaspdpipe=Pipeline([("tf_idf",TfidfVectorizer()),("nmf",NMF())])data=pd.DataFrame([["Salutcommenttuvas","Heyhowareyoutoday","Iamokayandyou?"]]).Tdata.colu

python - 如何将图像从 scikit-image 转换为 opencv2 和其他库?

我试图在使用scikit-image创建的骨架化图像中使用cv2python库查找轮廓,但出现此错误:contours,hierarchy=cv2.findContours(skel,cv2.RETR_TREE,cv2.CHAIN_APPROX_SIMPLE)TypeError:datatype=0isnotsupported我的问题是:我需要做什么才能转换为cv2,反之亦然?我知道opencv使用numpy.uint8类型来表示二进制图像而不是scikit-imagenumpy.float64我还使用了mahotas(numpy.bool)和pymorph库。我如何从scikit-i

python - 如何使用 Scikit-Image 库从 Python 中的 RGB 图像中提取绿色 channel ?

我对Python中用于图像处理的scikit-image(skimage)库非常陌生(几分钟前开始!)。我使用imread读取了numpy.ndarray中的图像文件。该数组是三维的,其中第三维的大小为3(即图像的红色、绿色和蓝色分量各一个)。rgb_image=imread("input_rgb_image.jpg")rgb_image.shape#gives(1411L,1411L,3L)我尝试将绿色channel提取为:green_image=rgb_image[:,:,1]但是当我将这个图像矩阵写入输出文件时:imsave("green_output_image.jpg",gr

python - 找不到符号 : _BIO_new_CMS

我是mac的新手,我不明白为什么我的scrapy似乎不再起作用了。我怀疑openssl在我的elcapitan中无效。我试过:pipinstallcryptographypipinstallpyOpenSSLbrewinstallopenssl我仍然收到以下错误。有什么办法可以解决这个问题吗?$pythonPython2.7.10(v2.7.10:15c95b7d81dc,May232015,09:33:12)[GCC4.2.1(AppleInc.build5666)(dot3)]ondarwinType"help","copyright","credits"or"license"fo