草庐IT

java - 使用 NLTK 使用 MaltParser 解析多个句子

有很多与MaltParser和/或NLTK相关的问题:MaltParserthrowingclassnotfoundexceptionHowtousemaltparserinpythonnltkMaltParserNotWorkinginPythonNLTKNLTKMaltParserwon'tparseDependencyparserusingNLTKandMaltParserDependencyParsingusingMaltParserandNLTKParsingwithMaltParserengmaltParserawtextwithMaltParserinJava现在,NLT

python - 从 gensim word2Vec 获取权重矩阵

我在python中使用gensimword2vec包。我想检索在skip-gram学习过程中学习到的W和W'权重矩阵。在我看来,model.syn0给了我第一个,但我不确定如何获得另一个。有什么想法吗?我真的很想找到任何关于模型可访问属性的详尽文档,因为官方文档似乎并不准确(例如syn0未被描述为属性) 最佳答案 model.wv.syn0包含输入嵌入矩阵。输出嵌入在使用hierarchicalsoftmax训练时存储在model.syn1中(hs=1)或在model.syn1neg中使用负采样(negative>0)。而已!当分层

python - python 中的快速/优化 N-gram 实现

哪个ngram实现在python中最快?我尝试分析nltk与scott的zip(http://locallyoptimal.com/blog/2013/01/20/elegant-n-gram-generation-in-python/):fromnltk.utilimportngramsasnltkngramimportthis,timedefzipngram(text,n=2):returnzip(*[text.split()[i:]foriinrange(n)])text=this.sstart=time.time()nltkngram(text.split(),n=2)prin

python - nltk 标记化和收缩

我正在使用nltk对文本进行标记,只是将句子提供给wordpunct_tokenizer。这会拆分收缩(例如,'don't'到'don'+"'"+'t'),但我想将它们保留为一个词。我正在改进我的方法以更精确地对文本进行标记化,因此除了简单的标记化之外,我还需要更深入地研究nltk标记化模块。我猜这很常见,我希望得到其他人的反馈,他们之前可能不得不处理过该特定问题。编辑:是的,我知道这是一个笼统的、乱七八糟的问题此外,作为nlp的新手,我是否需要担心收缩?编辑:SExprTokenizer或TreeBankWordTokenizer似乎可以满足我现在的需求。

python - 多语言 .py 文件的编码

我正在编写一个.py文件,其中包含来自多个字符集的字符串,包括英语、西类牙语和俄语。例如,我有这样的东西:string_en="Thequickbrownfoxjumpedoverthelazydog."string_es="Elvelozmurciélagohindúcomíafelizcardilloykiwi."string_ru="Вчащахюгажилбыцитрус?Да,нофальшивыйэкземпляр!"我无法弄清楚如何对我的文件进行编码以避免在我的文件运行时产生如下所示的语法错误:SyntaxError:Non-ASCIIcharacter'\xc3'inf

python - 如何使用 NLTK 和 Python 标记和分块法语文本?

我在一个JSON文件中有30,000多篇法语文章。我想对个别文章和整篇文章进行一些文本分析。在我走得更远之前,我先从简单的目标开始:识别重要实体(人、地点、概念)发现这些实体的重要性(~=频率)随时间的显着变化(使用文章序列号作为时间的代表)到目前为止我采取的步骤:将数据导入python列表:importjsonjson_articles=open('articlefile.json')articlelist=json.load(json_articles)选择了一篇文章进行测试,并将正文文本连接成一个字符串:txt=''.join(data[10000]['body'])加载法语句子

python - 获取选定的特征名称 TFIDF Vectorizer

我正在使用python,我想获取大量数据的TFIDF表示,我正在使用以下代码将文档转换为TFIDF形式。fromsklearn.feature_extraction.textimportTfidfVectorizertfidf_vectorizer=TfidfVectorizer(min_df=1,#mincountforrelevantvocabularymax_features=4000,#maximumnumberoffeaturesstrip_accents='unicode',#replaceallaccentedunicodechar#bytheircorrespondin

python - 如何使用 Stanford NLP Tagger 和 NLTK 提高速度

有什么方法可以更高效地使用StandfordTagger?每次调用NLTK的包装器都会为每个分析的字符串启动一个新的java实例,这非常非常慢,尤其是在使用更大的外语模型时...http://www.nltk.org/api/nltk.tag.html#module-nltk.tag.stanford 最佳答案 找到解决方案。可以在servlet模式下运行POSTagger,然后通过HTTP连接到它。完美。http://nlp.stanford.edu/software/pos-tagger-faq.shtml#d例子在后台启动服务

Python - 使用逐点互信息进行情感分析

from__future__importdivisionimporturllibimportjsonfrommathimportlogdefhits(word1,word2=""):query="http://ajax.googleapis.com/ajax/services/search/web?v=1.0&q=%s"ifword2=="":results=urllib.urlopen(query%word1)else:results=urllib.urlopen(query%word1+""+"AROUND(10)"+""+word2)json_res=json.loads(res

python - NLTK:语料库级 bleu 与句子级 BLEU 分数

我已经在python中导入了nltk来计算Ubuntu上的BLEU分数。我了解句子级BLEU分数的工作原理,但我不了解语料库级BLEU分数的工作原理。下面是我的语料库级BLEU分数代码:importnltkhypothesis=['This','is','cat']reference=['This','is','a','cat']BLEUscore=nltk.translate.bleu_score.corpus_bleu([reference],[hypothesis],weights=[1])print(BLEUscore)出于某种原因,上述代码的bleu分数为0。我期望语料库级别