草庐IT

utf-8 文件的 Python 3.5 UnicodeDecodeError(语言为 'ang' ,古英语)

这是我第一次使用StackOverflow提问,但多年来你们共同保存了我的许多项目,我已经感到宾至如归了。我正在使用Python3.5和nltk来解析完整的古英语语料库,它以77个文本文件和一个XML文档的形式发布给我,该文档将文件序列指定为TEI格式语料库的连续片段。这是XML文档header的相关部分,表明我们实际上正在使用TEI:是的,作为测试,我只是尝试使用NLTK的MTECorpusReader打开语料库并使用words()方法来证明我可以打开它。我正在从交互式Pythonshell中执行所有这些操作,只是为了便于测试。这就是我真正在做的事情:#importthereader

python - 如何使用 Python NLTK 识别单个字符之间的搭配?

我想使用NLTK来识别特定日文汉字字符和中文汉字字符之间的搭配。与单词搭配一样,一些汉字序列比其他汉字序列更有可能出现。示例:中文和日文中的许多单词都是双字符双字母组——字符A和字符B(例如,日本=日本,日文中的ni-hon和中文中的ri-ben).给定字符A(日),本作为字符B出现的可能性更大。所以字符日和本是搭配的。我想使用NLTK来找出这些问题的答案:(1)给定字符A,哪些字符最有可能是字符B?(2)给定字符B,哪些字符最有可能是字符A?(3)字符A和字符B在一个句子中同时出现的可能性有多大,即使它们没有并排出现?相关:如果我有一个汉字/汉字频率列表,我可以强制NLTK搭配模块只

python - 根据意思比较句子

Python提供了NLTK库,这是一个巨大的文本和语料库资源,以及大量的文本挖掘和处理方法。有什么方法可以根据句子传达的含义来比较句子以获得可能的匹配吗?即智能句子匹配器?例如,像这样的句子gigglingatbadjokes和Iliketolaugmyselfsillyatpoorjokes。两者表达相同的意思,但句子并不完全匹配(单词不同,LevensteinDistance会严重失败!)。现在假设我们有一个API,它公开了诸如foundhere之类的功能。.因此,基于此,我们有机制可以发现单词giggle和laugh在含义上确实匹配他们传达。Bad不会匹配到poor,所以我们可能

Python (nltk) - UnicodeDecodeError : 'ascii' codec can't decode byte

我是NLTK的新手。我遇到了这个错误,我四处搜索编码/解码,特别是UnicodeDecodeError,但这个错误似乎特定于NLTK源代码。这是错误:Traceback(mostrecentcalllast):File"A:\Python\Projects\Test\main.py",line2,inprint(pos_tag(word_tokenize("John'sbigideaisn'tallthatbad.")))File"A:\Python\Python\lib\site-packages\nltk\tag\__init__.py",line100,inpos_tagtagg

python - Web Scraping Rap lyrics on Rap Genius w/Python

我有点像一个编码新手,我一直在努力从说唱天才身上抓取Andre3000的歌词,http://genius.com/artists/Andre-3000,通过使用BeautifulSoup(一个用于从HTML和XML文件中提取数据的Python库)。我的最终目标是以字符串格式获取数据。这是我目前所拥有的:frombs4importBeautifulSoupfromurllib2importurlopenartist_url="http://rapgenius.com/artists/Andre-3000"defget_song_links(url):html=urlopen(url).r

python - 如何使用 spacy/nltk 生成 bi/tri-grams

输入文本总是菜名列表,其中有1~3个形容词和一个名词输入thaiicedteaspicyfriedchickensweetchiliporkthaichickencurry输出:thaitea,icedteaspicychicken,friedchickensweetpork,chiliporkthaichicken,chickencurry,thaicurry基本上,我希望解析句子树并尝试通过将形容词与名词配对来生成二元语法。我想用spacy或nltk来实现这一点 最佳答案 我使用带有英文模型的spacy2.0。找到名词和“非名词

python - NLTK 是否实现了 TF-IDF?

scikit-learn和gensim中都有TF-IDF实现。有简单的实现SimpleimplementationofN-Gram,tf-idfandCosinesimilarityinPython为了避免重新发明轮子,NLTK中真的没有TF-IDF吗?是否有我们可以操纵的子包来在NLTK中实现TF-IDF?如果有怎么办?在这篇博文中,它说NLTK没有它。这是真的吗?http://www.bogotobogo.com/python/NLTK/tf_idf_with_scikit-learn_NLTK.php 最佳答案 NLTKTex

Python 和 .NET 集成

我目前正在研究python,因为我真的很喜欢它的文本解析功能和nltk库,但传统上我是一名.Net/C#程序员。我不认为IronPython对我来说是一个集成点,因为我使用的是NLTK,并且可能需要将该库移植到CLR。我看过一点Pythonfor.NET并且想知道这是否是一个好的起点。有没有办法将python类编码到C#中?另外,这个解决方案还在使用吗?更好的是,有人这样做过吗?我正在考虑的一件事是使用持久性介质作为中间人(在Python中解析,在MongoDB中存储,在.NET中运行站点)。 最佳答案 NLTK是纯Python的,

python - 使用 Stanford coreNLP 在 python nltk 中进行共指解析

StanfordCoreNLP提供共指解析asmentionedhere,还有thisthread,this,提供了一些关于它在Java中的实现的见解。但是,我正在使用python和NLTK,我不确定如何在我的python代码中使用CoreNLP的共指解析功能。我已经能够在NLTK中设置StanfordParser,这是我目前的代码。fromnltk.parse.stanfordimportStanfordDependencyParserstanford_parser_dir='stanford-parser/'eng_model_path=stanford_parser_dir+"s

python - NLTK - 如何找出从 python 中安装的语料库?

我正在尝试加载一些我用NLTK安装程序安装的语料库,但我得到了:>>>fromnltk.corpusimportmachadoTraceback(mostrecentcalllast):File"",line1,inImportError:cannotimportnamemachado但在下载管理器(nltk.download())中,machado包被标记为已安装,我有一个nltk_data/corpus/machado文件夹。我如何从python解释器内部看到安装的语料库是什么?另外,我应该安装什么包来使用这个操作指南?http://nltk.googlecode.com/svn/