草庐IT

python - pyspark tfidf 转换是否保持索引位置?

我正在运行一系列函数:hashingTF=HashingTF()documents=sc.parallelize(df.content_list.values)tf=hashingTF.transform(documents)tf.cache()idf=IDF(minDocFreq=2).fit(tf)tfidf=idf.transform(tf)但是我不确定它们是否仍保留在插入时的相同位置。有没有办法将它们映射回它们的原始值或索引? 最佳答案 我假设你想用IDF.transform的结果zipdocuments:combined=

java - Mahout TFIDF 字典文件

我正在尝试使用mahout对一组文档(作为文本文件)执行TFIDF以进行计算,遵循thisguide.我已成功创建字典和vector权重,现在正尝试访问输出。在指南中,它说您“例如可以轻松地将生成的字典文件的内容加载到map中,其中标记索引作为键,标记作为值。”我不确定如何按照他的建议将此文件加载到map中,有人知道它是如何完成的吗?我从一个文本文件目录创建了我的vector,我在运行“./mahoutseq2sparse...”时遇到的一个问题是控制分析器的-a标志-它应该是lucene的StandardAnalyzer。当尝试使用此标志运行时,我收到了ClassNotFoundEx

python - 当我们只向 kmeans 提供单个单词的 tfidf 向量时,kmeans 如何知道如何对文档进行聚类?

我正在使用scikitlearn的Kmeans算法对评论进行聚类。sentence_list=['hellohowareyou',"Iamdoinggreat","mynameisabc"]vectorizer=TfidfVectorizer(min_df=1,max_df=0.9,stop_words='english',decode_error='ignore')vectorized=vectorizer.fit_transform(sentence_list)km=KMeans(n_clusters=num_clusters,init='k-means++',n_init=10,

python - PySpark 与 sklearn TFIDF

我是PySpark的新手。我在玩tfidf。只是想检查他们是否给出相同的结果。但他们不一样。这是我所做的。#createthePySparkdataframesentenceData=sqlContext.createDataFrame(((0.0,"HiIheardaboutSpark"),(0.0,"IwishJavacouldusecaseclasses"),(1.0,"Logisticregressionmodelsareneat"))).toDF("label","sentence")#tokenizetokenizer=Tokenizer().setInputCol("se

python - 绘制文档 tfidf 二维图

我想为我的句子列表绘制一个二维图,其中x轴作为术语,y轴作为TFIDF分数(或文档ID)。我使用scikitlearn的fit_transform()来获取scipy矩阵,但我不知道如何使用该矩阵来绘制图形。我正在尝试绘制图表以了解使用kmeans对我的句子进行分类的效果如何。这是fit_transform(sentence_list)的输出:(文档id,termnumber)tfidf分数(0,1023)0.209291711271(0,924)0.174405532933(0,914)0.174405532933(0,821)0.15579574484(0,770)0.174405

python - 如何使用 Pandas 数据框获取 tfidf?

我想从下面的文档中计算tf-idf。我正在使用python和pandas。importpandasaspddf=pd.DataFrame({'docId':[1,2,3],'sent':['Thisisthefirstsentence','Thisisthesecondsentence','Thisisthethirdsentence']})首先,我认为我需要为每一行获取word_count。于是我写了一个简单的函数:defword_count(sent):word2cnt=dict()forwordinsent.split():ifwordinword2cnt:word2cnt[wo

python - 如何在 scikit-learn 中的 tfidf 之后查看术语文档矩阵的前 n 个条目

我是scikit-learn的新手,我使用TfidfVectorizer在一组文档中查找术语的tfidf值。我使用以下代码来获得相同的结果。vectorizer=TfidfVectorizer(stop_words=u'english',ngram_range=(1,5),lowercase=True)X=vectorizer.fit_transform(lectures)现在如果我打印X,我可以看到矩阵中的所有条目,但是如何根据tfidf分数找到前n个条目。除此之外,还有什么方法可以帮助我根据每个ngram的tfidf分数找到前n个条目,即unigram、bigram、trigram