草庐IT

python - 默认的 nltk 词性标记集是什么?

在试验NLTK词性标注时,我注意到调用nltk.pos_tag的输出中有很多VBP标记。我注意到这个标签不在BrownCorpus词性标签集中。然而,它是UPenn标签集的一部分。nltk默认使用什么标签集?我在官方文档或apidocs中找不到这个。 最佳答案 Ntlk使用PennTreebank标签集。看看这个链接http://nltk.org/api/nltk.tag.html 关于python-默认的nltk词性标记集是什么?,我们在StackOverflow上找到一个类似的问题:

python - 在文档中索引单词的最有效方法?

这出现在另一个问题中,但我认为最好将其作为一个单独的问题提出。给出一个大的句子列表(10万个数量级):["Thisissentence1asanexample","Thisissentence1asanotherexample","Thisissentence2","Thisissentence3asanotherexample","Thisissentence4"]编写以下函数的最佳方法是什么?defGetSentences(word1,word2,position):return""如果给定两个单词,word1、word2和一个位置position,该函数应返回满足该约束的所有句子

python - 使用 Python NLTK 对 trigrams 进行 Kneser-Ney 平滑

我正在尝试使用PythonNLTK通过Kneser-Ney平滑来平滑一组n-gram概率。不幸的是,整个文档相当稀疏。我正在尝试做的是:我将文本解析为三元组列表。从这个列表中,我创建了一个FreqDist,然后使用该FreqDist来计算KN平滑分布。不过我很确定,结果是完全错误的。当我对各个概率求和时,我得到的结果远远超过1。以这个代码示例为例:importnltkngrams=nltk.trigrams("Whatapieceofworkisman!hownobleinreason!howinfiniteinfaculty!in\formandmovinghowexpressand

python - 更改列时出现稀疏效率警告

deftdm_modify(feature_names,tdm):non_useful_words=['kill','stampede','trigger','cause','death','hospital'\,'minister','said','told','say','injury','victim','report']indexes=[feature_names.index(word)forwordinnon_useful_words]forindexinindexes:tdm[:,index]=0returntdm我想为tdm矩阵中的某些项手动设置零权重。使用上面的代码我得

C++ - 如何使用 C++ 读取 Unicode 字符(例如印地语脚本),或者是否有更好的方法通过其他一些编程语言?

我有一个这样的印地文脚本文件:3.भारतकाइतिहासकाफीसमृद्धएवंविस्तृतहै।我必须编写一个程序,为每个句子中的每个单词添加一个位置。因此,特定单词位置的每一行的编号应以括号中的1开头。输出应该是这样的。3.भारत(1)का(2)इतिहास(3)काफी(4)समृद्ध(5)एवं(6)विस्तृत(7)है(8)।(9)上面这句话的意思是:3.Indiahasalongandrichhistory.如果您观察到“।”(印地语中的句号相当于英语中的“.”)也有一个单词位置,类似地,其他特殊符号也会有,因为我正在尝试进行英语-印地语单词对齐(自然语言处理

python - 使用 NLTK 创建新语料库

我认为我的标题的答案通常是去阅读文档,但我浏览了NLTKbook但它没有给出答案。我是Python的新手。我有一堆.txt文件,我希望能够使用NLTK为语料库nltk_data提供的语料库函数。我已经尝试过PlaintextCorpusReader但我无法获得更多:>>>importnltk>>>fromnltk.corpusimportPlaintextCorpusReader>>>corpus_root='./'>>>newcorpus=PlaintextCorpusReader(corpus_root,'.*')>>>newcorpus.words()如何使用punkt分割new

python - 如何从 BIO 分块句子中提取分块? - Python

给一个输入句子,有BIOchunktags:[('What','B-NP'),('is','B-VP'),('the','B-NP'),('airspeed','I-NP'),('of','B-PP'),('an','B-NP'),('unladen','I-NP'),('swallow','I-NP'),('?','O')]我需要提取相关的短语,例如如果我想提取'NP',我需要提取包含B-NP和I-NP的元组片段。[输出]:[('What','0'),('theairspeed','2-3'),('anunladenswallow','5-6-7')](注意:提取元组中的数字代表to

python - 如何使用 Python NLTK 识别单个字符之间的搭配?

我想使用NLTK来识别特定日文汉字字符和中文汉字字符之间的搭配。与单词搭配一样,一些汉字序列比其他汉字序列更有可能出现。示例:中文和日文中的许多单词都是双字符双字母组——字符A和字符B(例如,日本=日本,日文中的ni-hon和中文中的ri-ben).给定字符A(日),本作为字符B出现的可能性更大。所以字符日和本是搭配的。我想使用NLTK来找出这些问题的答案:(1)给定字符A,哪些字符最有可能是字符B?(2)给定字符B,哪些字符最有可能是字符A?(3)字符A和字符B在一个句子中同时出现的可能性有多大,即使它们没有并排出现?相关:如果我有一个汉字/汉字频率列表,我可以强制NLTK搭配模块只

python - FastText - 由于 C++ 扩展无法分配内存而无法加载 model.bin

我正在尝试使用FastTextPythonAPIhttps://pypi.python.org/pypi/fasttext虽然,根据我的阅读,此API无法在https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md加载较新的.bin模型文件。正如https://github.com/salestock/fastText.py/issues/115中所建议的那样我已经尝试了针对该问题提出的所有建议,此外https://github.com/Kyubyong/wordvectors没有英文的.

python - 非结构化文本到结构化数据

我正在寻找有关以类似于谷歌日历快速添加按钮的方式构建非结构化文本的引用资料(教程、书籍、学术文献)。我知道这可能属于NLP类别,但我只对从“Levijeanssize32A0b293”之类的东西开始的过程感兴趣to:品牌:Levi,尺寸:32,类别:牛仔裤,代码:A0b293我想这会是词法分析和机器学习技术的某种结合。我是语言不可知论者,但如果被推则更喜欢python、Matlab或C++引用谢谢 最佳答案 您需要提供有关文本来源(网络?用户输入?)、域(仅仅是衣服吗?)、可能的格式和词汇的更多信息...假设最坏的情况,您需要开始学