方言分类

python - Keras 二元分类 - Sigmoid 激活函数

我已经在Keras中使用tensorflow实现了一个基本的MLP，我正在尝试解决一个二元分类问题。对于二元分类，sigmoid似乎是推荐的激活函数，我不太明白为什么，以及Keras如何处理这个问题。我知道sigmoid函数会产生0到1之间的值。我的理解是，对于使用sigmoid的分类问题，将有一个特定的阈值用于确定输入的类别(通常为0.5)。在Keras中，我没有看到任何指定此阈值的方法，所以我假设它是在后端隐式完成的？如果是这种情况，Keras如何区分在二元分类问题或回归问题中使用sigmoid？对于二元分类，我们需要一个二元值，但对于回归，我们需要一个标称值。我所看到的可能表明这

二元 Sigmoid Keras model python tensorflow neural-network

python - 多个分类特征(列)的特征散列

我想将“流派”特征散列到6列中，并将“出版商”特征单独放入另外六列中。我想要像下面这样的东西:GenrePublisher0123450123450PlatformNintendo0.02.02.0-1.01.00.00.02.02.0-1.01.00.01RacingNoir-1.00.00.00.00.0-1.0-1.00.00.00.00.0-1.02SportsLaura-2.02.00.0-2.00.00.0-2.02.00.0-2.00.00.03RoleplayingJohn-2.02.02.00.01.00.0-2.02.02.00.01.00.04PuzzleJohn

python 特征 39 0.0 code pandas dataframe scikit-learn feature-extraction

python - 使 Sphinx 在 PDF 输出中生成未分类的代码块

代码块在PDF输出中看起来很难看(检查引号):我使用1.1.3版的Sphinx，并使用以下命令生成文档:$makelatexpdf此外，从PDF复制代码片段会破坏粘贴时的缩进:@view_config(route_name=’hello’)defhello_world(request):returnResponse(’HelloWorld!’)我希望这样:@view_config(route_name=’hello’)defhello_world(request):returnResponse(’HelloWorld!’)这样会更好:@view_config(route_name='h

中生 python section noreferrer Sphinx latex python-sphinx

python - 使用 scikit-learn 对连续变量和分类变量(整数类型)进行特征预处理

主要目标如下:将StandardScaler应用于连续变量将LabelEncoder和OnehotEncoder应用于分类变量连续变量需要缩放，但同时有几个分类变量也是整数类型。应用StandardScaler会导致不良影响。另一方面，StandardScaler会缩放基于整数的分类变量，这也不是我们想要的。由于连续变量和分类变量混合在单个PandasDataFrame中，建议的工作流程是什么来处理此类问题？说明我的观点的最好例子是KaggleBikeSharingDemand数据集，其中season和weather是整数分类变量最佳答案

scikit-learn python code section StandardScaler pandas machine-learning categorical-data

python - 投票分类器 : Different Feature Sets

我有两个不同的特征集(因此，行数相同且标签相同)，在我的例子中DataFrames:df1:|A|B|C|-------------|1|4|2||1|4|8||2|1|1||2|3|0||3|2|5|df2:|E|F|---------|6|1||1|3||8|1||2|8||5|2|标签:|labels|----------|5||5||1||7||3|我想用它们来训练VotingClassifier。但是拟合步骤只允许指定单个特征集。目标是使clf1与df1和clf2与df2相匹配。eclf=VotingClassifier(estimators=[('df1-clf',clf1

Different Feature code pre estimators python machine-learning scikit-learn

python - 使用多个分类器时 - 如何衡量集成的性能？ [SciKit学习]

我有一个分类问题(预测一个序列是否属于一个类)，为此我决定使用多种分类方法，以帮助过滤掉误报。(问题在于生物信息学-将蛋白质序列分类为神经肽前体序列。Here'stheoriginalarticle如果有人感兴趣，andthecodeusedtogeneratefeaturesandtotrainasinglepredictor)。现在，分类器具有大致相似的性能指标(10倍CV的训练集上的准确度/精度等为83-94%)，因此我的“天真”方法是简单地使用多个分类器(随机森林，ExtraTrees,SVM(Linearkernel),SVM(RBFkernel)andGRB)，并使用简单多

python SciKit section noreferrer noopener machine-learning scikit-learn bioinformatics random-forest

python - 如何在 Scikit 中计算多类分类的混淆矩阵？

我有一个多类分类任务。当我基于scikitexample运行我的脚本时如下:classifier=OneVsRestClassifier(GradientBoostingClassifier(n_estimators=70,max_depth=3,learning_rate=.02))y_pred=classifier.fit(X_train,y_train).predict(X_test)cnf_matrix=confusion_matrix(y_test,y_pred)我收到这个错误:File"C:\ProgramData\Anaconda2\lib\site-packages\s

中计混淆 code section confusion_matrix python scikit-learn classification confusion-matrix

python - 使用 scikit learn 训练逻辑回归以进行多类分类

根据scikitmulticlassclassification逻辑回归可以通过设置用于多类分类multi_class=multinomial在构造函数中。但是这样做会出错:代码:text_clf=Pipeline([('vect',TfidfVectorizer()),('clf',LogisticRegression(multi_class='multinomial')),])text_clf=text_clf.fit(X_train,Y_train)错误:ValueError:求解器liblinear不支持多项式后端。你能告诉我这里出了什么问题吗？注意:将multi_class保

训练 python section strong code scikit-learn classification

python - 随机森林分类器分割错误

一直在尝试在包含20个左右标签的约50,000个条目的数据集上运行RF分类器，我认为这应该没问题，但在尝试拟合时我不断遇到以下问题......ExceptionMemoryError:MemoryError()in'sklearn.tree._tree.Tree._resize'ignoredSegmentationfault(coredumped)数据集已通过TfidfVectorizer，然后通过n=100的TruncatedSVD进行降维。RandomForestClassifier以n_jobs=1和n_estimators=10运行，试图找到它可以工作的最小点。该系统使用4G

python 随机 section code 跟踪器 scikit-learn random-forest

python - 超越关键字依赖的文本分类并推断实际含义

我正在尝试开发一个文本分类器，它将一段文本分类为私有(private)或公共(public)。以医疗或健康信息为例。我能想到的典型分类器将关键字视为主要区分器，对吗？像下面这样的场景怎么样？如果两段文本都包含相似的关键字但含义不同怎么办？以下一段文字揭示了某人的私有(private)(健康)情况(患者患有癌症):我去过两个诊所和我的pcp。我进行了一次超声检查，结果却被告知这是正在消退的囊肿或血肿，但它越来越大，开始让我的腿变形疼痛。PCP说它不可能是囊肿，因为它开始时太大了，我发誓我的腿从未受伤，甚至没有凸起。我现在很害怕癌症。大约9个月前，我在蹲下时才注意到有点不舒服的感觉。3个月

推断含义 code 34 strong python nlp text-classification natural-language-processing

69 70 717273 74 75