草庐IT

python - 如何使用 spacy/nltk 生成 bi/tri-grams

输入文本总是菜名列表,其中有1~3个形容词和一个名词输入thaiicedteaspicyfriedchickensweetchiliporkthaichickencurry输出:thaitea,icedteaspicychicken,friedchickensweetpork,chiliporkthaichicken,chickencurry,thaicurry基本上,我希望解析句子树并尝试通过将形容词与名词配对来生成二元语法。我想用spacy或nltk来实现这一点 最佳答案 我使用带有英文模型的spacy2.0。找到名词和“非名词

python - NLTK 是否实现了 TF-IDF?

scikit-learn和gensim中都有TF-IDF实现。有简单的实现SimpleimplementationofN-Gram,tf-idfandCosinesimilarityinPython为了避免重新发明轮子,NLTK中真的没有TF-IDF吗?是否有我们可以操纵的子包来在NLTK中实现TF-IDF?如果有怎么办?在这篇博文中,它说NLTK没有它。这是真的吗?http://www.bogotobogo.com/python/NLTK/tf_idf_with_scikit-learn_NLTK.php 最佳答案 NLTKTex

python - NLP - Python 中的信息提取 (spaCy)

我试图从以下段落结构中提取此类信息:women_ranmen_rankids_ranwalked121324313652text=["OnTuesday,onewomenranonthestreetwhile2menranand1childranonthesidewalk.Also,therewere3peoplewalking.","Onepersonwaswalkingyesterday,buttherewere2womenrunningaswellas4menand3kidsrunning.","Theotherday,therewerethreewomenrunninganda

Python 和 .NET 集成

我目前正在研究python,因为我真的很喜欢它的文本解析功能和nltk库,但传统上我是一名.Net/C#程序员。我不认为IronPython对我来说是一个集成点,因为我使用的是NLTK,并且可能需要将该库移植到CLR。我看过一点Pythonfor.NET并且想知道这是否是一个好的起点。有没有办法将python类编码到C#中?另外,这个解决方案还在使用吗?更好的是,有人这样做过吗?我正在考虑的一件事是使用持久性介质作为中间人(在Python中解析,在MongoDB中存储,在.NET中运行站点)。 最佳答案 NLTK是纯Python的,

python - 使用 Stanford coreNLP 在 python nltk 中进行共指解析

StanfordCoreNLP提供共指解析asmentionedhere,还有thisthread,this,提供了一些关于它在Java中的实现的见解。但是,我正在使用python和NLTK,我不确定如何在我的python代码中使用CoreNLP的共指解析功能。我已经能够在NLTK中设置StanfordParser,这是我目前的代码。fromnltk.parse.stanfordimportStanfordDependencyParserstanford_parser_dir='stanford-parser/'eng_model_path=stanford_parser_dir+"s

python - NLTK - 如何找出从 python 中安装的语料库?

我正在尝试加载一些我用NLTK安装程序安装的语料库,但我得到了:>>>fromnltk.corpusimportmachadoTraceback(mostrecentcalllast):File"",line1,inImportError:cannotimportnamemachado但在下载管理器(nltk.download())中,machado包被标记为已安装,我有一个nltk_data/corpus/machado文件夹。我如何从python解释器内部看到安装的语料库是什么?另外,我应该安装什么包来使用这个操作指南?http://nltk.googlecode.com/svn/

python - nltk.pos_tag() 是如何工作的?

nltk.pos_tag()是如何工作的?它是否涉及任何语料库的使用?我找到了一个源代码(nltk.tag-NLTK3.0文档),上面写着_POS_TAGGER='taggers/maxent_treebank_pos_tagger/english.pickle'.加载_POS_TAGGER给出一个对象:nltk.tag.sequential.ClassifierBasedPOSTagger,似乎没有来自语料库的训练。当我在名词前连续使用几个形容词时,标记是不正确的(例如thequickbrownfox)。我想知道我是否可以通过使用更好的标记方法或以某种方式使用更好的语料库进行训练来改

NLP-语义解析(Text2SQL):技术路线【Seq2Seq、模板槽位填充、中间表达、强化学习、图网络】

 目前关于NL2SQL技术路线的发展主要包含以下几种:Seq2Seq方法:在深度学习的研究背景下,很多研究人员将Text-to-SQL看作一个类似神经机器翻译的任务,主要采取Seq2Seq的模型框架。基线模型Seq2Seq在加入Attention、Copying等机制后,能够在ATIS、GeoQuery数据集上达到84%的精确匹配,但是在WikiSQL数据集上只能达到23.3%的精确匹配,37.0%的执行正确率;在Spider数据集上则只能达到5~6%的精确匹配。模板槽位填充方法:将SQL的生成过程分为多个子任务,每一个子任务负责预测一种语法现象中的列,该方法对于单表无嵌套效果好,并且生成的S

python - 从单词中删除重复字符

我想知道将“haaaaapppppyyy”之类的内容转换为“haappyy”的最佳方法是什么。基本上,在解析俚语时,人们有时会重复字符以增加强调。我想知道最好的方法是什么?使用set()不起作用,因为字母的顺序显然很重要。有什么想法吗?我正在使用Python+nltk。 最佳答案 可以使用正则表达式来完成:>>>importre>>>re.sub(r'(.)\1+',r'\1\1',"haaaaapppppyyy")'haappyy'(.)\1+替换任何字符(.)后跟一个或多个相同的字符(因为backref\1必须相同)乘以字符的两

python - 超越关键字依赖的文本分类并推断实际含义

我正在尝试开发一个文本分类器,它将一段文本分类为私有(private)或公共(public)。以医疗或健康信息为例。我能想到的典型分类器将关键字视为主要区分器,对吗?像下面这样的场景怎么样?如果两段文本都包含相似的关键字但含义不同怎么办?以下一段文字揭示了某人的私有(private)(健康)情况(患者患有癌症):我去过两个诊所和我的pcp。我进行了一次超声检查,结果却被告知这是正在消退的囊肿或血肿,但它越来越大,开始让我的腿变形疼痛。PCP说它不可能是囊肿,因为它开始时太大了,我发誓我的腿从未受伤,甚至没有凸起。我现在很害怕癌症。大约9个月前,我在蹲下时才注意到有点不舒服的感觉。3个月