草庐IT

stanford-nlp

全部标签

java - 如何训练 Stanford NLP 情感分析工具

大家见鬼去吧!我正在使用StanfordCoreNLP软件包,我的目标是对实时推文流进行情绪分析。按原样使用情绪分析工具返回对文本“态度”的非常糟糕的分析..许多正面被标记为中性,许多负面被评为正面。我已经在一个文本文件中获取了超过一百万条推文,但我不知道如何实际训练该工具并创建我自己的模型。LinktoStanfordSentimentAnalysispage“可以使用PTB格式数据集使用以下命令重新训练模型:”java-mx8gedu.stanford.nlp.sentiment.SentimentTraining-numHid25-trainPathtrain.txt-devPa

java - 如何为 stanford tagger 创建自己的训练语料库?

我必须分析包含大量速记和本地行话的非正式英语文本。因此,我正在考虑为斯坦福标注器创建模型。我如何创建自己的一组标记语料库供stanford标注器训练?语料库的语法是什么?为了达到理想的性能,我的语料库应该有多长? 最佳答案 要训练PoS标注器,请参阅thismailinglistpost这也包含在JavaDocs中对于MaxentTagger类。edu.stanford.nlp.tagger.maxent.Trainclass的javadocs指定训练格式:Thetrainingfileshouldbeinthefollowingf

python - NLP 中的否定处理

我目前正在做一个项目,我想从文本中提取情感。当我使用conceptnet5(语义网络)时,我不能简单地在包含否定词的句子中添加前缀词,因为这些词根本不会出现在conceptnet5的API中。这是一个例子:Themoviewasn'tthatgood.因此,我想我可以使用wordnet的引理功能来替换句子中包含否定词的形容词,例如(not,...)。在前面的示例中,算法将检测到wasn't并将其替换为wasnot。此外,它会检测到否定词not,并将good替换为其反义词bad。这句话应该是:Themoviewasthatbad.虽然我发现这不是最优雅的方式,而且在很多情况下它可能会产生

python - NLTK/NLP 构建多对多/多标签主题分类器

我有一个人工标记的语料库,其中包含5000多个XML主题索引文档。它们的大小从几百千字节到几百兆字节不等。短文转手稿。它们都被索引到了段落级别。我很幸运有这样的语料库,我正在尝试自学一些NLP概念。诚然,我才刚刚开始。到目前为止,只阅读了免费提供的NLTK书籍,streamhacker,并略读jacobs(?)NLTK食谱。我喜欢尝试一些想法。有人向我建议,也许我可以采用二元语法并使用朴素贝叶斯分类来标记新文档。我觉得这是错误的做法。朴素贝叶斯精通真/假关系,但要在我的分层标签集上使用它,我需要为每个标签构建一个新的分类器。其中将近1000个。我有足够的内存和处理器能力来完成这样的任务

python - 使用机器学习或 NLP 处理格式错误的文本数据

我正在尝试从一些包含人物条目的大型文本文件中提取数据。但问题是,我无法控制数据到达我的方式。通常是这样的格式:LASTNAME,FirstnameMiddlename(MaybeaNickname)WhyisthistexthereJanuary,25,2012FirstnameLastname2001SometextthatIdon'tcareaboutLastname,Firstnameblahblah...January25,2012...目前,我正在使用一个巨大正则表达式来拆分所有kindaCamelcase单词,所有在末尾添加月份名称的单词,以及许多特殊情况名字。然后我使用更

python - 如何使用 python nltk 加速 stanford NER 的 NE 识别

首先,我将文件内容标记为句子,然后对每个句子调用StanfordNER。但是这个过程真的很慢。我知道如果我在整个文件内容上调用它会更快,但我在每个句子上调用它,因为我想在NE识别之前和之后为每个句子建立索引。st=NERTagger('stanford-ner/classifiers/english.all.3class.distsim.crf.ser.gz','stanford-ner/stanford-ner.jar')forfilenameinfilelist:sentences=sent_tokenize(filecontent)#breakfilecontentintosen

基于RNN+CNN实现NLP判别新闻真伪

前言大家好,我是阿光。本专栏整理了《PyTorch深度学习项目实战100例》,内包含了各种不同的深度学习项目,包含项目原理以及源码,每一个项目实例都附带有完整的代码+数据集。正在更新中~✨?我的项目环境:平台:Windows10语言环境:python3.7编译器:PyCharmPyTorch版本:1.8.1?项目专栏:【PyTorch深度学习项目实战100例】一、基于RNN+CNN实现NLP判别新闻真伪在当今时代,传播错误信息已经成为一个真正的问题,许多公司正在采取措施,使普通人认识到传播错误信息的后果。衡量网上发布的新闻的真实性是无法确定的,因为对新闻进行人工分类是很繁琐和耗时的,而且也会有

python - 一些与 Python 中的语法、标记、词干提取和词义消歧有关的 NLP 内容

背景(TLDR;为了完成而提供)就奇怪需求的最佳解决方案寻求建议。我是大学四年级的(文学)学生,只有我自己的编程指导。我对Python足够胜任,因此我不会在实现我找到的解决方案(大部分时间)并对其进行开发时遇到问题,但由于我的新手,我正在寻求有关解决这个特殊问题的最佳方法的建议.已经在使用NLTK,但与NLTK书中的示例不同。我已经在利用NLTK的很多东西,特别是WordNet,所以这些Material对我来说并不陌生。我已经阅读了大部分NLTK书籍。我正在使用零散的原子语言。用户输入单词和句子片段,WordNet用于寻找输入之间的联系,并生成新的单词和句子/片段。我的问题是关于将Wo

python - NLTK和stanford中名词短语的中心查找根据NP的中心查找规则进行解析

一般来说,名词短语的中心词是NP最右边的名词,如下所示树是父NP的中心词。所以ROOT|S___|________________________NP|___|_____________||PPVP|____|________|___NP|NP|PRT___|_______||||DTJJNNNNINNNPVBDRP||||||||TheoldoaktreefromIndiafelldownOut[40]:Tree('S',[Tree('NP',[Tree('NP',[Tree('DT',['The']),Tree('JJ',['old']),Tree('NN',['oak']),Tr

python - NLTK 无法找到 stanford-postagger.jar!设置 CLASSPATH 环境变量

我正在从事一个需要我使用nltk和python标记token的项目。所以我想用这个。但是提出了一些问题。我经历了很多其他已经提出的问题和其他论坛,但我仍然无法解决这个问题。问题是当我尝试执行以下操作时:从nltk.tag导入StanfordPOSTaggerst=StanfordPOSTagger('english-bidirectional-distsim.tagger')我得到以下信息:Traceback(mostrecentcalllast):`File"",line1,inst=StanfordPOSTagger('english-bidirectional-distsim.t