草庐IT

SciKit-Learn

全部标签

python - 如何使用带有 GridSearchCV 对象的 TimeSeriesSplit 来调整 scikit-learn 中的模型?

我搜索了sklearndocsforTimeSeriesSplit和docsforcross-validation但我还没有找到一个可行的例子。我使用的是sklearn0.19版。这是我的设置importxgboostasxgbfromsklearn.model_selectionimportTimeSeriesSplitfromsklearn.grid_searchimportGridSearchCVimportnumpyasnpX=np.array([[4,5,6,1,0,2],[3.1,3.5,1.0,2.1,8.3,1.1]]).Ty=np.array([1,6,7,1,2,3

python - 如何使用带有 GridSearchCV 对象的 TimeSeriesSplit 来调整 scikit-learn 中的模型?

我搜索了sklearndocsforTimeSeriesSplit和docsforcross-validation但我还没有找到一个可行的例子。我使用的是sklearn0.19版。这是我的设置importxgboostasxgbfromsklearn.model_selectionimportTimeSeriesSplitfromsklearn.grid_searchimportGridSearchCVimportnumpyasnpX=np.array([[4,5,6,1,0,2],[3.1,3.5,1.0,2.1,8.3,1.1]]).Ty=np.array([1,6,7,1,2,3

python - Scikit Learn中的多变量/多元线性回归?

我在.csv文件中有一个数据集(dataTrain.csv和dataTest.csv),格式如下:Temperature(K),Pressure(ATM),CompressibilityFactor(Z)273.1,24.675,0.806677258313.1,24.675,0.888394713...,...,...并且能够使用此代码构建回归模型和预测:importpandasaspdfromsklearnimportlinear_modeldataTrain=pd.read_csv("dataTrain.csv")dataTest=pd.read_csv("dataTest.cs

python - Scikit Learn中的多变量/多元线性回归?

我在.csv文件中有一个数据集(dataTrain.csv和dataTest.csv),格式如下:Temperature(K),Pressure(ATM),CompressibilityFactor(Z)273.1,24.675,0.806677258313.1,24.675,0.888394713...,...,...并且能够使用此代码构建回归模型和预测:importpandasaspdfromsklearnimportlinear_modeldataTrain=pd.read_csv("dataTrain.csv")dataTest=pd.read_csv("dataTest.cs

python - 具有不平衡类的 k 折分层交叉验证

我有4个类的数据,我正在尝试构建一个分类器。一类有~1000个向量,另一类有~10^4,第三类有~10^5,第四类有~10^6。我希望使用交叉验证,所以我查看了scikit-learndocs.我的第一次尝试是使用StratifiedShuffleSplit但这为每个类(class)提供了相同的百分比,使类(class)仍然严重不平衡。Isthereawaytodocross-validationbutwiththeclassesbalancedinthetrainingandtestset?附带说明,我无法计算出StratifiedShuffleSplit之间的区别。和Stratif

python - 具有不平衡类的 k 折分层交叉验证

我有4个类的数据,我正在尝试构建一个分类器。一类有~1000个向量,另一类有~10^4,第三类有~10^5,第四类有~10^6。我希望使用交叉验证,所以我查看了scikit-learndocs.我的第一次尝试是使用StratifiedShuffleSplit但这为每个类(class)提供了相同的百分比,使类(class)仍然严重不平衡。Isthereawaytodocross-validationbutwiththeclassesbalancedinthetrainingandtestset?附带说明,我无法计算出StratifiedShuffleSplit之间的区别。和Stratif

python - scikit-learn:如何缩减 'y' 的预测结果

我正在尝试使用波士顿住房数据集来学习scikit-learn和机器学习。#Isplittedtheinitialdataset('housing_X'and'housing_y')fromsklearn.cross_validationimporttrain_test_splitX_train,X_test,y_train,y_test=train_test_split(housing_X,housing_y,test_size=0.25,random_state=33)#Iscaledthosetwodatasetsfromsklearn.preprocessingimportSta

python - scikit-learn:如何缩减 'y' 的预测结果

我正在尝试使用波士顿住房数据集来学习scikit-learn和机器学习。#Isplittedtheinitialdataset('housing_X'and'housing_y')fromsklearn.cross_validationimporttrain_test_splitX_train,X_test,y_train,y_test=train_test_split(housing_X,housing_y,test_size=0.25,random_state=33)#Iscaledthosetwodatasetsfromsklearn.preprocessingimportSta

python - 保留 TFIDF 结果以使用 Scikit for Python 预测新内容

我在Python上使用sklearn进行一些聚类。我已经训练了200,000条数据,下面的代码运行良好。corpus=open("token_from_xml.txt")vectorizer=CountVectorizer(decode_error="replace")transformer=TfidfTransformer()tfidf=transformer.fit_transform(vectorizer.fit_transform(corpus))km=KMeans(30)kmresult=km.fit(tfidf).predict(tfidf)但是当我有新的测试内容时,我想将

python - 保留 TFIDF 结果以使用 Scikit for Python 预测新内容

我在Python上使用sklearn进行一些聚类。我已经训练了200,000条数据,下面的代码运行良好。corpus=open("token_from_xml.txt")vectorizer=CountVectorizer(decode_error="replace")transformer=TfidfTransformer()tfidf=transformer.fit_transform(vectorizer.fit_transform(corpus))km=KMeans(30)kmresult=km.fit(tfidf).predict(tfidf)但是当我有新的测试内容时,我想将