草庐IT

nltk_contrib

全部标签

不降级解决No module named ‘tensorflow.contrib‘

首先这是一个tensorflow1.x和tensorflow2.x的一个冲突,很多tensorflow1.x的包都被删除和移动到别的地方,网上面最多的做法就是降级,降级了不是可能会引发更多的冲突吗,我不是很理解,也有可能是我技术不到家,还没法领悟。下面我将演示自己的改python额外安装包源码的过程。这是在tf2.x的状态:fromtensorflow.contrib.crfimportviterbi_decodeTraceback(mostrecentcalllast): File"C:\Users\csdn\.conda\envs\lastner\Lib\site-packages\foo

python - 默认的 nltk 词性标记集是什么?

在试验NLTK词性标注时,我注意到调用nltk.pos_tag的输出中有很多VBP标记。我注意到这个标签不在BrownCorpus词性标签集中。然而,它是UPenn标签集的一部分。nltk默认使用什么标签集?我在官方文档或apidocs中找不到这个。 最佳答案 Ntlk使用PennTreebank标签集。看看这个链接http://nltk.org/api/nltk.tag.html 关于python-默认的nltk词性标记集是什么?,我们在StackOverflow上找到一个类似的问题:

python - 如何解析这种格式(Praat TextGrid)

TextGrid是Praat程序使用的“分割”文件。我想编写一个解析器来验证数据。我的问题是:您将如何为这种格式编写解析器?逐行阅读还是其他?这是已知格式吗?Filetype="ooTextFile"Objectclass="TextGrid"xmin=0xmax=93.0538775510204tiers?size=3item[]:item[1]:class="IntervalTier"name="diph"xmin=0xmax=93.0538775510204intervals:size=65intervals[1]:xmin=0xmax=1.300090702947846text

python - 从 Python 的 NLTK 中的自定义文本生成随机句子?

我在使用Python下的NLTK时遇到问题,特别是.generate()方法。generate(self,length=100)Printrandomtext,generatedusingatrigramlanguagemodel.Parameters:*length(int)-Thelengthoftexttogenerate(default=100)这是我正在尝试的简化版本。importnltkwords='Thequickbrownfoxjumpsoverthelazydog'tokens=nltk.word_tokenize(words)text=nltk.Text(token

python - 使用 Python NLTK 对 trigrams 进行 Kneser-Ney 平滑

我正在尝试使用PythonNLTK通过Kneser-Ney平滑来平滑一组n-gram概率。不幸的是,整个文档相当稀疏。我正在尝试做的是:我将文本解析为三元组列表。从这个列表中,我创建了一个FreqDist,然后使用该FreqDist来计算KN平滑分布。不过我很确定,结果是完全错误的。当我对各个概率求和时,我得到的结果远远超过1。以这个代码示例为例:importnltkngrams=nltk.trigrams("Whatapieceofworkisman!hownobleinreason!howinfiniteinfaculty!in\formandmovinghowexpressand

python - 使用 NLTK 创建新语料库

我认为我的标题的答案通常是去阅读文档,但我浏览了NLTKbook但它没有给出答案。我是Python的新手。我有一堆.txt文件,我希望能够使用NLTK为语料库nltk_data提供的语料库函数。我已经尝试过PlaintextCorpusReader但我无法获得更多:>>>importnltk>>>fromnltk.corpusimportPlaintextCorpusReader>>>corpus_root='./'>>>newcorpus=PlaintextCorpusReader(corpus_root,'.*')>>>newcorpus.words()如何使用punkt分割new

python - 如何使用 Python NLTK 识别单个字符之间的搭配?

我想使用NLTK来识别特定日文汉字字符和中文汉字字符之间的搭配。与单词搭配一样,一些汉字序列比其他汉字序列更有可能出现。示例:中文和日文中的许多单词都是双字符双字母组——字符A和字符B(例如,日本=日本,日文中的ni-hon和中文中的ri-ben).给定字符A(日),本作为字符B出现的可能性更大。所以字符日和本是搭配的。我想使用NLTK来找出这些问题的答案:(1)给定字符A,哪些字符最有可能是字符B?(2)给定字符B,哪些字符最有可能是字符A?(3)字符A和字符B在一个句子中同时出现的可能性有多大,即使它们没有并排出现?相关:如果我有一个汉字/汉字频率列表,我可以强制NLTK搭配模块只

Python (nltk) - UnicodeDecodeError : 'ascii' codec can't decode byte

我是NLTK的新手。我遇到了这个错误,我四处搜索编码/解码,特别是UnicodeDecodeError,但这个错误似乎特定于NLTK源代码。这是错误:Traceback(mostrecentcalllast):File"A:\Python\Projects\Test\main.py",line2,inprint(pos_tag(word_tokenize("John'sbigideaisn'tallthatbad.")))File"A:\Python\Python\lib\site-packages\nltk\tag\__init__.py",line100,inpos_tagtagg

python - 如何使用 spacy/nltk 生成 bi/tri-grams

输入文本总是菜名列表,其中有1~3个形容词和一个名词输入thaiicedteaspicyfriedchickensweetchiliporkthaichickencurry输出:thaitea,icedteaspicychicken,friedchickensweetpork,chiliporkthaichicken,chickencurry,thaicurry基本上,我希望解析句子树并尝试通过将形容词与名词配对来生成二元语法。我想用spacy或nltk来实现这一点 最佳答案 我使用带有英文模型的spacy2.0。找到名词和“非名词

python - NLTK 是否实现了 TF-IDF?

scikit-learn和gensim中都有TF-IDF实现。有简单的实现SimpleimplementationofN-Gram,tf-idfandCosinesimilarityinPython为了避免重新发明轮子,NLTK中真的没有TF-IDF吗?是否有我们可以操纵的子包来在NLTK中实现TF-IDF?如果有怎么办?在这篇博文中,它说NLTK没有它。这是真的吗?http://www.bogotobogo.com/python/NLTK/tf_idf_with_scikit-learn_NLTK.php 最佳答案 NLTKTex