草庐IT

nltk_contrib

全部标签

python - NLTK 中的 Wordnet 选择限制

有没有办法通过NLTK从同义词集中捕获WordNet选择限制(例如+animate、+human等)?或者是否有任何其他方式提供有关同义词集的语义信息?我能得到的最接近它的是上位词关系。 最佳答案 这取决于你的“选择限制”是什么,或者我称之为语义特征,因为在经典语义中,存在着一个概念的世界,为了比较我们必须找到的概念区分特征(即用于区分概念的特征)和相似特征(即相似概念的特征,并强调区分它们的必要性)例如:Manis[+HUMAN],[+MALE],[+ADULT]Womanis[+HUMAN],[-MALE],[+ADULT][+

python - 我怎么能在 python/nltk 中使用完整的 penn treebank 数据集

我正在努力学习使用NLTK在python中打包。特别是,我需要在NLTK中使用penntreebank数据集。据我所知,如果我调用nltk.download('treebank')我可以获得数据集的5%。但是,我在tar.gz文件中有一个完整的数据集,我想使用它。在here据说:IfyouhaveaccesstoafullinstallationofthePennTreebank,NLTKcanbeconfiguredtoloaditaswell.Downloadtheptbpackage,andinthedirectorynltk_data/corpora/ptbplacetheBR

python - 使用我自己的语料库在 Python NLTK 中进行类别分类

我是一名NTLK/Python初学者,并设法使用CategorizedPlaintextCorpusReader加载了我自己的语料库,但我如何实际训练和使用数据进行文本分类?>>>fromnltk.corpus.readerimportCategorizedPlaintextCorpusReader>>>reader=CategorizedPlaintextCorpusReader('/ebs/category',r'.*\.txt',cat_pattern=r'(.*)\.txt')>>>len(reader.categories())234 最佳答案

python - 导入错误 : No module named 'keras_contrib'

我正在尝试使用下面的导入命令导入Keraslib代码以执行CRF,但如标题所示出现错误。请分享解决方案。用来执行的命令是fromkeras_contrib.layersimportCRFTraceback(mostrecentcalllast):File"",line1,infromkeras_contrib.layersimportCRFImportError:Nomodulenamed'keras_contrib' 最佳答案 一个简单的(sudo)pipinstallgit+https://www.github.com/kera

python - NLTK/NLP 构建多对多/多标签主题分类器

我有一个人工标记的语料库,其中包含5000多个XML主题索引文档。它们的大小从几百千字节到几百兆字节不等。短文转手稿。它们都被索引到了段落级别。我很幸运有这样的语料库,我正在尝试自学一些NLP概念。诚然,我才刚刚开始。到目前为止,只阅读了免费提供的NLTK书籍,streamhacker,并略读jacobs(?)NLTK食谱。我喜欢尝试一些想法。有人向我建议,也许我可以采用二元语法并使用朴素贝叶斯分类来标记新文档。我觉得这是错误的做法。朴素贝叶斯精通真/假关系,但要在我的分层标签集上使用它,我需要为每个标签构建一个新的分类器。其中将近1000个。我有足够的内存和处理器能力来完成这样的任务

python - 如何使用 NLTK pos 标签获得更好的结果

我正在使用Python学习nltk。我尝试在各种句子上做pos_tag。但得到的结果并不准确。我如何即兴创作结果?broke=NNflimsy=NNcrap=NN我也得到了很多额外的词被归类为NN。我怎样才能过滤掉这些以获得更好的结果。? 最佳答案 给出上下文,你就得到了这些结果。举个例子,我在上下文短语“Theybrokeclimsycrap”上使用pos_tag获得了其他结果:importnltktext=nltk.word_tokenize("Theybrokeflimsycrap")nltk.pos_tag(text)[('

python - 我可以在 NLTK 中使用哪个垃圾邮件语料库?

我的问题与thisone相当相关,但我决定打开另一个问题线程。我希望它很好。我也在使用Python中的NLTK构建垃圾邮件过滤器,但我才刚刚开始。我想知道我可以使用哪个垃圾邮件语料库以及如何导入它?我没有发现任何“内置于NLTK”的垃圾邮件语料库(here)。提前谢谢你。 最佳答案 这presentation使用enron-spamdataset(200,000多封电子邮件)。Thetrainingandtestingsetscomefromadatasetof200,000+Enronemailswhichcontainboth“

python - 使用 NLTK 和 Pandas 删除停用词

我对Pandas和NLTK有一些疑问。我是编程新手,如果我问的问题可能很容易解决,请原谅。我有一个csv文件,它有3列(Id、标题、正文)和大约15.000行。我的目标是从此csv文件中删除停用词。小写和拆分操作运行良好。但是我找不到为什么停用词没有被删除的错误。我错过了什么?importpandasaspdfromnltk.corpusimportstopwordspd.read_csv("test10in.csv",encoding="utf-8")df=pd.read_csv("test10in.csv")df.columns=['Id','Title','Body']df['T

python - 在没有 django.contrib.admin 的情况下运行 django 应用程序

我试图在没有Django管理面板的情况下运行我的Django应用程序,因为我现在不需要它,但得到一个异常值:Put'django.contrib.admin'inyourINSTALLED_APPSsettinginordertousetheadminapplication.我可以在没有django.contrib.admin的情况下运行我的应用程序吗?即使去我的localhost:8000它也显示你需要在你的installed_apps中添加django.contrib.admin? 最佳答案 django.contrib.adm

python - 如何在 Twitter 数据的 Pandas 数据框上应用 NLTK word_tokenize 库?

这是我用于Twitter语义分析的代码:-importpandasaspdimportdatetimeimportnumpyasnpimportrefromnltk.tokenizeimportword_tokenizefromnltk.corpusimportstopwordsfromnltk.stem.wordnetimportWordNetLemmatizerfromnltk.stem.porterimportPorterStemmerdf=pd.read_csv('twitDB.csv',header=None,sep=',',error_bad_lines=False,enc