草庐IT

方言分类

全部标签

python - Keras 二元分类 - Sigmoid 激活函数

我已经在Keras中使用tensorflow实现了一个基本的MLP,我正在尝试解决一个二元分类问题。对于二元分类,sigmoid似乎是推荐的激活函数,我不太明白为什么,以及Keras如何处理这个问题。我知道sigmoid函数会产生0到1之间的值。我的理解是,对于使用sigmoid的分类问题,将有一个特定的阈值用于确定输入的类别(通常为0.5)。在Keras中,我没有看到任何指定此阈值的方法,所以我假设它是在后端隐式完成的?如果是这种情况,Keras如何区分在二元分类问题或回归问题中使用sigmoid?对于二元分类,我们需要一个二元值,但对于回归,我们需要一个标称值。我所看到的可能表明这

python - 多个分类特征(列)的特征散列

我想将“流派”特征散列到6列中,并将“出版商”特征单独放入另外六列中。我想要像下面这样的东西:GenrePublisher0123450123450PlatformNintendo0.02.02.0-1.01.00.00.02.02.0-1.01.00.01RacingNoir-1.00.00.00.00.0-1.0-1.00.00.00.00.0-1.02SportsLaura-2.02.00.0-2.00.00.0-2.02.00.0-2.00.00.03RoleplayingJohn-2.02.02.00.01.00.0-2.02.02.00.01.00.04PuzzleJohn

python - 使 Sphinx 在 PDF 输出中生成未分类的代码块

代码块在PDF输出中看起来很难看(检查引号):我使用1.1.3版的Sphinx,并使用以下命令生成文档:$makelatexpdf此外,从PDF复制代码片段会破坏粘贴时的缩进:@view_config(route_name=’hello’)defhello_world(request):returnResponse(’HelloWorld!’)我希望这样:@view_config(route_name=’hello’)defhello_world(request):returnResponse(’HelloWorld!’)这样会更好:@view_config(route_name='h

python - 使用 scikit-learn 对连续变量和分类变量(整数类型)进行特征预处理

主要目标如下:将StandardScaler应用于连续变量将LabelEncoder和OnehotEncoder应用于分类变量连续变量需要缩放,但同时有几个分类变量也是整数类型。应用StandardScaler会导致不良影响。另一方面,StandardScaler会缩放基于整数的分类变量,这也不是我们想要的。由于连续变量和分类变量混合在单个PandasDataFrame中,建议的工作流程是什么来处理此类问题?说明我的观点的最好例子是KaggleBikeSharingDemand数据集,其中season和weather是整数分类变量 最佳答案

python - 投票分类器 : Different Feature Sets

我有两个不同的特征集(因此,行数相同且标签相同),在我的例子中DataFrames:df1:|A|B|C|-------------|1|4|2||1|4|8||2|1|1||2|3|0||3|2|5|df2:|E|F|---------|6|1||1|3||8|1||2|8||5|2|标签:|labels|----------|5||5||1||7||3|我想用它们来训练VotingClassifier。但是拟合步骤只允许指定单个特征集。目标是使clf1与df1和clf2与df2相匹配。eclf=VotingClassifier(estimators=[('df1-clf',clf1

python - 使用多个分类器时 - 如何衡量集成的性能? [SciKit学习]

我有一个分类问题(预测一个序列是否属于一个类),为此我决定使用多种分类方法,以帮助过滤掉误报。(问题在于生物信息学-将蛋白质序列分类为神经肽前体序列。Here'stheoriginalarticle如果有人感兴趣,andthecodeusedtogeneratefeaturesandtotrainasinglepredictor)。现在,分类器具有大致相似的性能指标(10倍CV的训练集上的准确度/精度等为83-94%),因此我的“天真”方法是简单地使用多个分类器(随机森林,ExtraTrees,SVM(Linearkernel),SVM(RBFkernel)andGRB),并使用简单多

python - 如何在 Scikit 中计算多类分类的混淆矩阵?

我有一个多类分类任务。当我基于scikitexample运行我的脚本时如下:classifier=OneVsRestClassifier(GradientBoostingClassifier(n_estimators=70,max_depth=3,learning_rate=.02))y_pred=classifier.fit(X_train,y_train).predict(X_test)cnf_matrix=confusion_matrix(y_test,y_pred)我收到这个错误:File"C:\ProgramData\Anaconda2\lib\site-packages\s

python - 使用 scikit learn 训练逻辑回归以进行多类分类

根据scikitmulticlassclassification逻辑回归可以通过设置用于多类分类multi_class=multinomial在构造函数中。但是这样做会出错:代码:text_clf=Pipeline([('vect',TfidfVectorizer()),('clf',LogisticRegression(multi_class='multinomial')),])text_clf=text_clf.fit(X_train,Y_train)错误:ValueError:求解器liblinear不支持多项式后端。你能告诉我这里出了什么问题吗?注意:将multi_class保

python - 随机森林分类器分割错误

一直在尝试在包含20个左右标签的约50,000个条目的数据集上运行RF分类器,我认为这应该没问题,但在尝试拟合时我不断遇到以下问题......ExceptionMemoryError:MemoryError()in'sklearn.tree._tree.Tree._resize'ignoredSegmentationfault(coredumped)数据集已通过TfidfVectorizer,然后通过n=100的TruncatedSVD进行降维。RandomForestClassifier以n_jobs=1和n_estimators=10运行,试图找到它可以工作的最小点。该系统使用4G

python - 超越关键字依赖的文本分类并推断实际含义

我正在尝试开发一个文本分类器,它将一段文本分类为私有(private)或公共(public)。以医疗或健康信息为例。我能想到的典型分类器将关键字视为主要区分器,对吗?像下面这样的场景怎么样?如果两段文本都包含相似的关键字但含义不同怎么办?以下一段文字揭示了某人的私有(private)(健康)情况(患者患有癌症):我去过两个诊所和我的pcp。我进行了一次超声检查,结果却被告知这是正在消退的囊肿或血肿,但它越来越大,开始让我的腿变形疼痛。PCP说它不可能是囊肿,因为它开始时太大了,我发誓我的腿从未受伤,甚至没有凸起。我现在很害怕癌症。大约9个月前,我在蹲下时才注意到有点不舒服的感觉。3个月