e_learning_system

python - Scikit-learn、GroupKFold 与洗牌组？

我使用的是scikit-learn中的StratifiedKFold，但现在我还需要观察“组”。GroupKFold有很好的功能，但我的数据非常依赖时间。与帮助中的非常相似，即周数是分组索引。但是每周应该只有一次。假设我需要10折。我需要先洗牌数据，然后才能使用GroupKFold。洗牌是在群体意识中-所以整个群体应该相互洗牌。有没有办法以某种方式使用scikit-learn优雅？在我看来，GroupKFold很强大，可以先洗牌数据。如果没有办法用scikit做到这一点，谁能写出一些有效的代码？我有大量数据集。矩阵、标签、组作为输入最佳答案

洗牌 Scikit-learn shuffled groups_shuffled GroupKFold python shuffle cross-validation

python - 属性错误 : module 'tensorflow.contrib.learn' has no attribute 'TensorFlowDNNClassifier'

这是我要执行的mltensorflow代码-importtensorflow.contrib.learnasskflowfromsklearnimportdatasets,metricsiris=datasets.load_iris()classifier=skflow.TensorFlowDNNClassifier(hidden_units=[10,20,10],n_classes=3)classifier.fit(iris.data,iris.target)score=metrics.accuracy_score(iris.target,classifier.predict(iri

amp TensorFlowDNNClassifier tensorflow iris classifier python machine-learning scikit-learn

python - virtualenv --system-site-packages 不使用系统站点包

我的印象是在virtualenv中使用--system-site-packages标志将允许虚拟环境使用已经安装的系统包。但是我发现情况并非如此。我正在使用python的自定义编译版本。您可以在以下步骤中看到问题。[user@machinedjango]$whichpython/app/python/bin/python[user@machinedjango]$whichpip/app/python/bin/pip[user@machinedjango]$whichvirtualenv/app/python/bin/virtualenv[user@machinedjango]$pyth

system-site-packages virtualenv python django python2

python - 在 python 中为 libsvm/scikit-learn 库的一些特性建模的一些疑问

我已经刮了很多这样的ebay标题:AppleiPhone5White16GBDual-Core我以这种方式手动标记了所有这些BMCSNA其中B=品牌(苹果)M=型号(iPhone5)C=颜色(白色)S=尺寸(尺寸)NA=未分配(双核)现在我需要使用python中的libsvm库训练一个SVM分类器，以了解ebay标题中出现的序列模式。我需要通过将问题视为分类问题来为该属性(品牌、型号、颜色、尺寸)提取新值。通过这种方式，我可以预测新模型。我想表示这些功能以将它们用作libsvm库的输入。我在python中工作:D。Identityofthecurrentword我想我可以这样解释0--

python scikit-learn code br 单词 dictionary libsvm

python - 如何从 scikits.learn 分类器中提取信息然后在 C 代码中使用

我在Python中使用scikits.learn训练了一堆RBFSVM，然后Pickled结果。这些用于图像处理任务，我想为测试做的一件事是在某些测试图像的每个像素上运行每个分类器。也就是说，从以像素(i,j)为中心的窗口中提取特征向量，在该特征向量上运行每个分类器，然后移动到下一个像素并重复。这对于Python来说太慢了。澄清:当我说“这太慢了……”时，我的意思是即使scikits.learn使用的Libsvm底层代码也太慢了。我实际上是在为GPU编写一个手动决策函数，因此每个像素的分类是并行发生的。我是否可以使用Pickle加载分类器，然后获取某种描述如何根据特征向量计算决策的属性

scikits python code section strong svm libsvm scikit-learn

python - scikit-learn 中的样本权重在交叉验证中被破坏

在训练随机森林分类器时，我一直在尝试在scikit-learn中使用加权样本。当我将样本权重直接传递给分类器时效果很好，例如RandomForestClassifier().fit(X,y,sample_weight=weights)，但是当我尝试使用网格搜索为分类器寻找更好的超参数时，我遇到了麻烦:在使用grid参数时传递权重，用法是:grid_search=GridSearchCV(RandomForestClassifier(),params,n_jobs=-1,fit_params={"sample_weight"=weights})问题是交叉验证器不知道样本权重，因此不会将它

重在 scikit-learn code section sample_weight python machine-learning

python - 使用 keras 的 sk-learn API 时出错

这几天在学习keras，在使用scikit-learnAPI的时候遇到了一个错误，下面是一些可能有用的东西:环境:python:3.5.2keras:1.0.5scikit-learn:0.17.1代码importpandasaspdfromkeras.layersimportInput,Densefromkeras.modelsimportModelfromkeras.modelsimportSequentialfromkeras.wrappers.scikit_learnimportKerasRegressorfromsklearn.cross_validationimporttr

时出 sk-learn code model build_fn python machine-learning scikit-learn keras

python - 如何将 os.system() 输出存储在 python 中的变量或列表中

这个问题在这里已经有了答案:Runningshellcommandandcapturingtheoutput(21个答案)关闭2年前。我正在尝试通过使用以下命令在远程服务器上执行ssh来获取命令的输出。os.system('sshuser@host"ksh.profile;cddir;find.-typef|wc-l"')此命令的输出是145490为什么输出中有一个零？有没有办法将输出存储在变量或列表中？我也尝试过将输出分配给一个变量和一个列表，但我在变量中只得到0。我正在使用python2.7.3。

python system section notice span python-2.7 ssh

python - scikit-learn 时间序列数据的交叉验证自定义拆分

我想使用scikit-learn的GridSearchCV确定随机森林模型的一些超参数。我的数据是时间相关的，看起来像importpandasaspdtrain=pd.DataFrame({'date':pd.DatetimeIndex(['2012-1-1','2012-9-30','2013-4-3','2014-8-16','2015-3-20','2015-6-30']),'feature1':[1.2,3.3,2.7,4.0,8.2,6.5],'feature2':[4,4,10,3,10,9],'target':[1,2,1,3,2,2]})>>>traindatefeat

自定 scikit-learn code section train python machine-learning

python - 如何在scikit learn中进行欠采样？

我们有一个视网膜数据集，其中患病眼睛信息占信息的70%，而未患病眼睛占剩余的30%。我们想要一个数据集，其中患病和未患病样本的数量应该相等。是否有任何可用的功能可以帮助我们做同样的事情？最佳答案我会选择用PandasDataFrame来做到这一点和numpy.random.choice.通过这种方式，很容易进行随机抽样以产生大小相同的数据集。一个例子:importpandasaspdimportnumpyasnpdata=pd.DataFrame(np.random.randn(7,4))data['Healthy']=[1,1

中进何在 section random code python python-2.7 dataset scikit-learn sampling

281 282 283284285 286 287