stanford-nlp

java - 如何训练 Stanford NLP 情感分析工具

大家见鬼去吧!我正在使用StanfordCoreNLP软件包，我的目标是对实时推文流进行情绪分析。按原样使用情绪分析工具返回对文本“态度”的非常糟糕的分析..许多正面被标记为中性，许多负面被评为正面。我已经在一个文本文件中获取了超过一百万条推文，但我不知道如何实际训练该工具并创建我自己的模型。LinktoStanfordSentimentAnalysispage“可以使用PTB格式数据集使用以下命令重新训练模型:”java-mx8gedu.stanford.nlp.sentiment.SentimentTraining-numHid25-trainPathtrain.txt-devPa

Stanford 训练 code section java nlp stanford-nlp sentiment-analysis

java - 如何为 stanford tagger 创建自己的训练语料库？

我必须分析包含大量速记和本地行话的非正式英语文本。因此，我正在考虑为斯坦福标注器创建模型。我如何创建自己的一组标记语料库供stanford标注器训练？语料库的语法是什么？为了达到理想的性能，我的语料库应该有多长？最佳答案要训练PoS标注器，请参阅thismailinglistpost这也包含在JavaDocs中对于MaxentTagger类。edu.stanford.nlp.tagger.maxent.Trainclass的javadocs指定训练格式:Thetrainingfileshouldbeinthefollowingf

语料何为 section stanford java nlp stanford-nlp

python - NLP 中的否定处理

我目前正在做一个项目，我想从文本中提取情感。当我使用conceptnet5(语义网络)时，我不能简单地在包含否定词的句子中添加前缀词，因为这些词根本不会出现在conceptnet5的API中。这是一个例子:Themoviewasn'tthatgood.因此，我想我可以使用wordnet的引理功能来替换句子中包含否定词的形容词，例如(not,...)。在前面的示例中，算法将检测到wasn't并将其替换为wasnot。此外，它会检测到否定词not，并将good替换为其反义词bad。这句话应该是:Themoviewasthatbad.虽然我发现这不是最优雅的方式，而且在很多情况下它可能会产生

python NLP code section strong regex nltk text-processing

python - NLTK/NLP 构建多对多/多标签主题分类器

我有一个人工标记的语料库，其中包含5000多个XML主题索引文档。它们的大小从几百千字节到几百兆字节不等。短文转手稿。它们都被索引到了段落级别。我很幸运有这样的语料库，我正在尝试自学一些NLP概念。诚然，我才刚刚开始。到目前为止，只阅读了免费提供的NLTK书籍，streamhacker,并略读jacobs(?)NLTK食谱。我喜欢尝试一些想法。有人向我建议，也许我可以采用二元语法并使用朴素贝叶斯分类来标记新文档。我觉得这是错误的做法。朴素贝叶斯精通真/假关系，但要在我的分层标签集上使用它，我需要为每个标签构建一个新的分类器。其中将近1000个。我有足够的内存和处理器能力来完成这样的任务

python NLTK 贝叶 section 的 statistics nlp machine-learning

python - 使用机器学习或 NLP 处理格式错误的文本数据

我正在尝试从一些包含人物条目的大型文本文件中提取数据。但问题是，我无法控制数据到达我的方式。通常是这样的格式:LASTNAME,FirstnameMiddlename(MaybeaNickname)WhyisthistexthereJanuary,25,2012FirstnameLastname2001SometextthatIdon'tcareaboutLastname,Firstnameblahblah...January25,2012...目前，我正在使用一个巨大正则表达式来拆分所有kindaCamelcase单词，所有在末尾添加月份名称的单词，以及许多特殊情况名字。然后我使用更

python NLP 39 self regex parsing machine-learning

python - 如何使用 python nltk 加速 stanford NER 的 NE 识别

首先，我将文件内容标记为句子，然后对每个句子调用StanfordNER。但是这个过程真的很慢。我知道如果我在整个文件内容上调用它会更快，但我在每个句子上调用它，因为我想在NE识别之前和之后为每个句子建立索引。st=NERTagger('stanford-ner/classifiers/english.all.3class.distsim.crf.ser.gz','stanford-ner/stanford-ner.jar')forfilenameinfilelist:sentences=sent_tokenize(filecontent)#breakfilecontentintosen

python stanford section 39 句子 nlp nltk stanford-nlp named-entity-recognition

基于RNN+CNN实现NLP判别新闻真伪

前言大家好，我是阿光。本专栏整理了《PyTorch深度学习项目实战100例》，内包含了各种不同的深度学习项目，包含项目原理以及源码，每一个项目实例都附带有完整的代码+数据集。正在更新中~✨?我的项目环境：平台：Windows10语言环境：python3.7编译器：PyCharmPyTorch版本：1.8.1?项目专栏：【PyTorch深度学习项目实战100例】一、基于RNN+CNN实现NLP判别新闻真伪在当今时代，传播错误信息已经成为一个真正的问题，许多公司正在采取措施，使普通人认识到传播错误信息的后果。衡量网上发布的新闻的真实性是无法确定的，因为对新闻进行人工分类是很繁琐和耗时的，而且也会有

判别真伪本项 PyTorch 深度学习自然语言处理 python 1024程序员节

python - 一些与 Python 中的语法、标记、词干提取和词义消歧有关的 NLP 内容

背景(TLDR；为了完成而提供)就奇怪需求的最佳解决方案寻求建议。我是大学四年级的(文学)学生，只有我自己的编程指导。我对Python足够胜任，因此我不会在实现我找到的解决方案(大部分时间)并对其进行开发时遇到问题，但由于我的新手，我正在寻求有关解决这个特殊问题的最佳方法的建议.已经在使用NLTK，但与NLTK书中的示例不同。我已经在利用NLTK的很多东西，特别是WordNet，所以这些Material对我来说并不陌生。我已经阅读了大部分NLTK书籍。我正在使用零散的原子语言。用户输入单词和句子片段，WordNet用于寻找输入之间的联系，并生成新的单词和句子/片段。我的问题是关于将Wo

词义 python code 39 strong nlp grammar tagging nltk

python - NLTK和stanford中名词短语的中心查找根据NP的中心查找规则进行解析

一般来说，名词短语的中心词是NP最右边的名词，如下所示树是父NP的中心词。所以ROOT|S___|________________________NP|___|_____________||PPVP|____|________|___NP|NP|PRT___|_______||||DTJJNNNNINNNPVBDRP||||||||TheoldoaktreefromIndiafelldownOut[40]:Tree('S',[Tree('NP',[Tree('NP',[Tree('DT',['The']),Tree('JJ',['old']),Tree('NN',['oak']),Tr

短语 stanford 39 Tree code python algorithm nltk stanford-nlp

python - NLTK 无法找到 stanford-postagger.jar!设置 CLASSPATH 环境变量

我正在从事一个需要我使用nltk和python标记token的项目。所以我想用这个。但是提出了一些问题。我经历了很多其他已经提出的问题和其他论坛，但我仍然无法解决这个问题。问题是当我尝试执行以下操作时:从nltk.tag导入StanfordPOSTaggerst=StanfordPOSTagger('english-bidirectional-distsim.tagger')我得到以下信息:Traceback(mostrecentcalllast):`File"",line1,inst=StanfordPOSTagger('english-bidirectional-distsim.t

stanford-postagger CLASSPATH stanford nltk StanfordPOSTagger python stanford-nlp pos-tagger

28 29 303132 33 34