nltk

python - 滥用nltk的word_tokenize(sent)的后果

我正在尝试将一段分成几个词。我手边有可爱的nltk.tokenize.word_tokenize(sent)，但是help(word_tokenize)说，“这个分词器被设计为一次处理一个句子。”有谁知道如果在段落中使用它会发生什么情况，即最多5个句子？我自己在几个短段落上尝试过，它似乎有效，但这并不是决定性的证据。最佳答案 nltk.tokenize.word_tokenize(text)只是一个薄的wrapperfunction调用TreebankWordTokenizer实例的tokenize方法类，它显然使用简单的正则表达

word_tokenize tokenize 39 text python nltk

python - NLTK - 没有名为语料库的模块

使用PIP安装NLTK和NLTK-DATA后，我运行python然后我输入fromnltk.corpusimportcmudict并且它有效。但是当我写这样的脚本时:fromnltk.corpusimportcmudictd=cmudict.dict()defnsyl(word):return[len(list(yforyinxify[-1].isdigit()))forxind[word.lower()]]printnsyl("hello")我有以下错误:Traceback(mostrecentcalllast):File"nltk.py",line1,infromnltk.corp

语料名为 nltk section code python importerror

python - 在 Mac OS 10.9 上为 Python 3.4 安装 nltk

我一直试图让nltk在python3.4下运行，但没有成功。使用http://www.nltk.org/install.html处的说明:sudopipinstall-Unltk这适用于预装在Mac上的2.7，但是在使用时sudopip3install-Unltk尝试在3.4下安装我得到以下错误:/usr/local/Cellar/python3/3.4.1_1/Frameworks/Python.framework/Versions/3.4/lib/python3.4/distutils/dist.py:260:UserWarning:Unknowndistributionoptio

python nltk setup macos osx-mavericks python-3.4

python - NLTK 将标记化的句子转换为同义词集格式

我希望使用NLTK获得单个单词与句子中每个单词之间的相似度。NLTK可以得到两个特定单词之间的相似度，如下所示。此方法需要给出对单词的特定引用，在本例中为“dog.n.01”，其中dog是名词，我们要使用第一个(01)NLTK定义。dog=wordnet.synset('dog.n.01')cat=wordnet.synset('cat.n.01')printdog.path_similarity(cat)>>0.2问题是我需要从句子中的每个单词中获取词性信息。NLTK包能够获取句子中每个单词的词性，如下所示。但是，这些语音部分('NN'、'VB'、'PRP'...)与同义词集作为参数

句子 python 39 单词 section nltk sentiment-analysis

python - 使用 NLTK 的 Punkt Tokenizer 保留空行

我正在使用NLTK的PUNKT句子分词器将文件拆分为句子列表，并希望保留文件中的空行:fromnltkimportdatatokenizer=data.load('tokenizers/punkt/english.pickle')s="Thatwasaveryloudbeep.\n\nIdon'tevenknow\nifthisisworking.Mark?\n\nMarkareyouthere?\n\n\n"sentences=tokenizer.tokenize(s)printsentences我想这样打印:['Thatwasaveryloudbeep.\n\n',"Idon'te

空行 Tokenizer code tokenize 34 python nlp newline nltk line-breaks

python - 哪个分词器更适合与 nltk 一起使用

我已经开始学习nltk并关注this教程。首先，我们使用sent_tokenize来使用内置分词器，然后我们使用PunktSentenceTokenizer。本教程提到PunktSentenceTokenizer能够进行无监督机器学习。那么这是否意味着它比默认的更好？或者各种tokenizers之间比较的标准是什么？最佳答案查看sourcecode对于sent_tokenize()显示该方法当前使用预训练的punkttokenizer，因此它等同于PunktSentenceTokenizer。您是否需要重新训练分词器取决于您使用

适合 python code section 训练 nltk tokenize

python - 坚持在 Python 中使用 Megam(nltk.classify.MaxentClassifier)

我正在使用ubuntux64，经过两天并搜索所有网络，我仍然无法安装Megam，我已阅读此页面中的所有信息http://www.cs.utah.edu/~hal/megam/并从http://packages.ubuntu.com/precise/ocaml安装了x64版本的o'calm但是当我想在python中使用“megam”作为分类器时，它说:"NLTKwasunabletofindthemegamfile!UsesoftwarespecificconfigurationparamatersorsettheMEGAMenvironmentvariable.谁能告诉我如何在pyth

MaxentClassifier classify section megam code python ubuntu installation nltk

python - 如何在 python nltk 中获取 n-gram 搭配和关联？

在thisdocumentation，有使用nltk.collocations.BigramAssocMeasures()、BigramCollocationFinder、nltk.collocations.TrigramAssocMeasures()和TrigramCollocationFinder.有基于pmi的bigram和trigram查找nbest的示例方法。示例:finder=BigramCollocationFinder.from_words(...nltk.corpus.genesis.words('english-web.txt'))>>>finder.nbest(b

python 何在 39 code introduction nlp nltk n-gram collocation

python - python 中的 Nltk 法语分词器无法正常工作

为什么python自带的frenchtokenizer对我不起作用？我做错了什么吗？我在做importnltkcontent_french=["Lesastronomesamateursjouentégalementunrôleimportantenrecherche;lesplussérieuxparticipantcourammentausuivid'étoilesvariables,àladécouvertedenouveauxastéroïdesetdenouvellescomètes,etc.",'Séquencevidéo.',"JohnRichardBondexpliqu

法语 python section tokenize code nltk

python - 使用 wordnet nltk 确定 Hypernym 或 Hyponym

我想检查两个词之间的上位词/下位词关系(由用户提供)这意味着它们中的任何一个都可以是其他的上位词，或者也可以是两者之间没有上位词关系的情况。我可以使用path_similarity吗？我正在尝试这样做。如果你能提出更好的方法为此。我还想知道从sparql查询中检查是否更好first=wn.synset('automobile.n.01')second=wn.synset('car.n.01')first.path_similarity(second) 最佳答案首先，wordnet中的word和synset/concept是有区别的

Hypernym Hyponym Synset 39 gt python sparql nltk rdflib

19 20 212223 24 25