草庐IT

scikit-tensor

全部标签

python - scikits 机器学习中的缺失值

scikit-learn中是否可能存在缺失值?他们应该如何表现?我找不到任何相关文档。 最佳答案 scikit-learn根本不支持缺失值。之前已经在邮件列表中讨论过这个问题,但没有尝试实际编写代码来处理它们。无论你做什么,不要使用NaN来编码缺失值,因为许多算法拒绝处理包含NaN的样本。上面的答案已经过时了;scikit-learn的最新版本有一个类Imputer做简单的,每个特征的缺失值插补。您可以为其提供包含NaN的数组,以将其替换为相应特征的均值、中位数或众数。 关于python

python - Dataset.from_tensors 和 Dataset.from_tensor_slices 有什么区别?

我有一个表示为形状为(num_features,num_examples)的NumPy矩阵的数据集,我希望将其转换为TensorFlow类型tf.Dataset。我正在努力理解这两种方法之间的区别:Dataset.from_tensors和Dataset.from_tensor_slices。什么是正确的,为什么?TensorFlow文档(link)说这两种方法都接受张量的嵌套结构,尽管在使用from_tensor_slices时,张量在第0维中应该具有相同的大小。 最佳答案 from_tensors组合输入并返回具有单个元素的数据

python - scikit-learn 会使用 GPU 吗?

在TensorFlow中读取scikit-learn的实现:http://learningtensorflow.com/lesson6/和scikit-learn:http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html我正在努力决定使用哪个实现。scikit-learn作为tensorflowdocker容器的一部分安装,因此可以使用任一实现。使用scikit-learn的原因:scikit-learncontainslessboilerplatethanthetensorflowimpl

python - Scikit Learn - K-Means - 弯头 - 标准

今天我想学习一些关于K-means的知识。我已经了解算法并且我知道它是如何工作的。现在我正在寻找正确的k...我发现肘部标准是一种检测正确k的方法,但我不明白如何将它与scikitlearn一起使用?!在scikitlearn中,我以这种方式对事物进行聚类kmeans=KMeans(init='k-means++',n_clusters=n_clusters,n_init=10)kmeans.fit(data)所以我应该为n_clusters=1...n执行几次并观察错误率以获得正确的k吗?认为这会很愚蠢并且会花费很多时间?! 最佳答案

python - 如何使用 Scikit Learn 调整随机森林中的参数?

classsklearn.ensemble.RandomForestClassifier(n_estimators=10,criterion='gini',max_depth=None,min_samples_split=2,min_samples_leaf=1,min_weight_fraction_leaf=0.0,max_features='auto',max_leaf_nodes=None,bootstrap=True,oob_score=False,n_jobs=1,random_state=None,verbose=0,warm_start=False,class_weig

python - scikit-learn : ValueError: np. nan 中的 TfidfVectorizer 是无效文档

我正在使用scikit-learn的TfidfVectorizer从文本数据中提取一些特征。我有一个带有分数(可以是+1或-1)和评论(文本)的CSV文件。我将这些数据提取到DataFrame中,以便运行Vectorizer。这是我的代码:importpandasaspdimportnumpyasnpfromsklearn.feature_extraction.textimportTfidfVectorizerdf=pd.read_csv("train_new.csv",names=['Score','Review'],sep=',')#x=df['Review']==np.nan##

python - 在 Scikit Learn 中运行 SelectKBest 后获取特征名称的最简单方法

我想做监督学习。到目前为止,我知道对所有特征进行监督学习。不过,我也想对K个最佳特征进行实验。我阅读了文档,发现在Scikit中学习有SelectKBest方法。不幸的是,在找到这些最佳功能后,我不确定如何创建新的数据框:假设我想用5个最佳功能进行实验:fromsklearn.feature_selectionimportSelectKBest,f_classifselect_k_best_classifier=SelectKBest(score_func=f_classif,k=5).fit_transform(features_dataframe,targeted_class)现在

python - 如何理解 TensorFlow 中的 `tensor` 一词?

我是TensorFlow新手。在阅读现有文档时,我发现术语tensor确实令人困惑。因此,我需要澄清以下问题:tensor和变量是什么关系,tensorvs.tf.constant,'tensor'vs.tf.placeholder?它们是所有类型的张量吗? 最佳答案 TensorFlow没有一流的Tensor对象,这意味着在运行时执行的底层图中没有Tensor的概念。相反,该图由相互连接的操作节点组成,表示操作。操作为其输出分配内存,这些输出可用于端点:0、:1等,您可以将这些端点中的每一个视为Tensor。如果您有tensor对

python - scikit-learn 交叉验证,具有均方误差的负值

当我将以下代码与大小(952,144)的数据矩阵X和大小(952)的输出向量y一起使用时,mean_squared_errormetric返回负值,这是意料之外的。你有什么想法吗?fromsklearn.svmimportSVRfromsklearnimportcross_validationasCVreg=SVR(C=1.,epsilon=0.1,kernel='rbf')scores=CV.cross_val_score(reg,X,y,cv=10,scoring='mean_squared_error')scores中的所有值都是负数。 最佳答案

python - 如何在 scikit-learn 中的 tfidf 之后查看术语文档矩阵的前 n 个条目

我是scikit-learn的新手,我使用TfidfVectorizer在一组文档中查找术语的tfidf值。我使用以下代码来获得相同的结果。vectorizer=TfidfVectorizer(stop_words=u'english',ngram_range=(1,5),lowercase=True)X=vectorizer.fit_transform(lectures)现在如果我打印X,我可以看到矩阵中的所有条目,但是如何根据tfidf分数找到前n个条目。除此之外,还有什么方法可以帮助我根据每个ngram的tfidf分数找到前n个条目,即unigram、bigram、trigram