scikit-tensor_草庐IT

python - scikits 机器学习中的缺失值

scikit-learn中是否可能存在缺失值？他们应该如何表现？我找不到任何相关文档。最佳答案 scikit-learn根本不支持缺失值。之前已经在邮件列表中讨论过这个问题，但没有尝试实际编写代码来处理它们。无论你做什么，不要使用NaN来编码缺失值，因为许多算法拒绝处理包含NaN的样本。上面的答案已经过时了；scikit-learn的最新版本有一个类Imputer做简单的，每个特征的缺失值插补。您可以为其提供包含NaN的数组，以将其替换为相应特征的均值、中位数或众数。关于python

缺失 scikits section scikit-learn python machine-learning missing-data

python - Dataset.from_tensors 和 Dataset.from_tensor_slices 有什么区别？

我有一个表示为形状为(num_features,num_examples)的NumPy矩阵的数据集，我希望将其转换为TensorFlow类型tf.Dataset。我正在努力理解这两种方法之间的区别:Dataset.from_tensors和Dataset.from_tensor_slices。什么是正确的，为什么？TensorFlow文档(link)说这两种方法都接受张量的嵌套结构，尽管在使用from_tensor_slices时，张量在第0维中应该具有相同的大小。最佳答案 from_tensors组合输入并返回具有单个元素的数据

Dataset from_tensor_slices code section python tensorflow tensorflow-datasets

python - scikit-learn 会使用 GPU 吗？

在TensorFlow中读取scikit-learn的实现:http://learningtensorflow.com/lesson6/和scikit-learn:http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html我正在努力决定使用哪个实现。scikit-learn作为tensorflowdocker容器的一部分安装，因此可以使用任一实现。使用scikit-learn的原因:scikit-learncontainslessboilerplatethanthetensorflowimpl

scikit-learn python scikit learn tensorflow k-means neuraxle

python - Scikit Learn - K-Means - 弯头 - 标准

今天我想学习一些关于K-means的知识。我已经了解算法并且我知道它是如何工作的。现在我正在寻找正确的k...我发现肘部标准是一种检测正确k的方法，但我不明白如何将它与scikitlearn一起使用？!在scikitlearn中，我以这种方式对事物进行聚类kmeans=KMeans(init='k-means++',n_clusters=n_clusters,n_init=10)kmeans.fit(data)所以我应该为n_clusters=1...n执行几次并观察错误率以获得正确的k吗？认为这会很愚蠢并且会花费很多时间？! 最佳答案

弯头 K-Means clusters n_clusters code python machine-learning scikit-learn cluster-analysis

python - 如何使用 Scikit Learn 调整随机森林中的参数？

classsklearn.ensemble.RandomForestClassifier(n_estimators=10,criterion='gini',max_depth=None,min_samples_split=2,min_samples_leaf=1,min_weight_fraction_leaf=0.0,max_features='auto',max_leaf_nodes=None,bootstrap=True,oob_score=False,n_jobs=1,random_state=None,verbose=0,warm_start=False,class_weig

python Scikit code section n_estimators parameters machine-learning scikit-learn random-forest

python - scikit-learn : ValueError: np. nan 中的 TfidfVectorizer 是无效文档

我正在使用scikit-learn的TfidfVectorizer从文本数据中提取一些特征。我有一个带有分数(可以是+1或-1)和评论(文本)的CSV文件。我将这些数据提取到DataFrame中，以便运行Vectorizer。这是我的代码:importpandasaspdimportnumpyasnpfromsklearn.feature_extraction.textimportTfidfVectorizerdf=pd.read_csv("train_new.csv",names=['Score','Review'],sep=',')#x=df['Review']==np.nan##

TfidfVectorizer scikit-learn code feature_extraction 39 python pandas machine-learning tf-idf

python - 在 Scikit Learn 中运行 SelectKBest 后获取特征名称的最简单方法

我想做监督学习。到目前为止，我知道对所有特征进行监督学习。不过，我也想对K个最佳特征进行实验。我阅读了文档，发现在Scikit中学习有SelectKBest方法。不幸的是，在找到这些最佳功能后，我不确定如何创建新的数据框:假设我想用5个最佳功能进行实验:fromsklearn.feature_selectionimportSelectKBest,f_classifselect_k_best_classifier=SelectKBest(score_func=f_classif,k=5).fit_transform(features_dataframe,targeted_class)现在

中运 SelectKBest code features section python pandas scikit-learn feature-extraction feature-selection

python - 如何理解 TensorFlow 中的 `tensor` 一词？

我是TensorFlow新手。在阅读现有文档时，我发现术语tensor确实令人困惑。因此，我需要澄清以下问题:tensor和变量是什么关系，tensorvs.tf.constant,'tensor'vs.tf.placeholder?它们是所有类型的张量吗？最佳答案 TensorFlow没有一流的Tensor对象，这意味着在运行时执行的底层图中没有Tensor的概念。相反，该图由相互连接的操作节点组成，表示操作。操作为其输出分配内存，这些输出可用于端点:0、:1等，您可以将这些端点中的每一个视为Tensor。如果您有tensor对

TensorFlow python code Variable section machine-learning deep-learning tensor

python - scikit-learn 交叉验证，具有均方误差的负值

当我将以下代码与大小(952,144)的数据矩阵X和大小(952)的输出向量y一起使用时，mean_squared_errormetric返回负值，这是意料之外的。你有什么想法吗？fromsklearn.svmimportSVRfromsklearnimportcross_validationasCVreg=SVR(C=1.,epsilon=0.1,kernel='rbf')scores=CV.cross_val_score(reg,X,y,cv=10,scoring='mean_squared_error')scores中的所有值都是负数。最佳答案

负值 scikit-learn section code sklearn python regression cross-validation

python - 如何在 scikit-learn 中的 tfidf 之后查看术语文档矩阵的前 n 个条目

我是scikit-learn的新手，我使用TfidfVectorizer在一组文档中查找术语的tfidf值。我使用以下代码来获得相同的结果。vectorizer=TfidfVectorizer(stop_words=u'english',ngram_range=(1,5),lowercase=True)X=vectorizer.fit_transform(lectures)现在如果我打印X，我可以看到矩阵中的所有条目，但是如何根据tfidf分数找到前n个条目。除此之外，还有什么方法可以帮助我根据每个ngram的tfidf分数找到前n个条目，即unigram、bigram、trigram

条目何在 features TfidfVectorizer vectorizer python numpy scikit-learn tf-idf top-n