草庐IT

java - 执行和测试 stanford core nlp 示例

我下载了stanfordcorenlp包并尝试在我的机器上测试它。使用命令:java-cp"*"-mx1gedu.stanford.nlp.sentiment.SentimentPipeline-fileinput.txt我得到了positive或negative形式的情绪结果。input.txt包含要测试的句子。关于更多命令:java-cpstanford-corenlp-3.3.0.jar;stanford-corenlp-3.3.0-models.jar;xom.jar;joda-time.jar-Xmx600medu.stanford。nlp.pipeline.Stanford

java - 如何使用 Open nlp 的分块解析器提取名词短语

我是自然语言处理的新手。我需要从文本中提取名词短语。到目前为止,我已经使用opennlp的分block解析器来解析我的文本以获得树结构。但我无法提取名词来自树结构的短语,opennlp中是否有任何正则表达式模式,以便我可以用它来提取名词短语。下面是我使用的代码InputStreamis=newFileInputStream("en-parser-chunking.bin");ParserModelmodel=newParserModel(is);Parserparser=ParserFactory.create(model);ParsetopParses[]=ParserTool.pa

java - 如何训练 Stanford NLP 情感分析工具

大家见鬼去吧!我正在使用StanfordCoreNLP软件包,我的目标是对实时推文流进行情绪分析。按原样使用情绪分析工具返回对文本“态度”的非常糟糕的分析..许多正面被标记为中性,许多负面被评为正面。我已经在一个文本文件中获取了超过一百万条推文,但我不知道如何实际训练该工具并创建我自己的模型。LinktoStanfordSentimentAnalysispage“可以使用PTB格式数据集使用以下命令重新训练模型:”java-mx8gedu.stanford.nlp.sentiment.SentimentTraining-numHid25-trainPathtrain.txt-devPa

python - NLP 中的否定处理

我目前正在做一个项目,我想从文本中提取情感。当我使用conceptnet5(语义网络)时,我不能简单地在包含否定词的句子中添加前缀词,因为这些词根本不会出现在conceptnet5的API中。这是一个例子:Themoviewasn'tthatgood.因此,我想我可以使用wordnet的引理功能来替换句子中包含否定词的形容词,例如(not,...)。在前面的示例中,算法将检测到wasn't并将其替换为wasnot。此外,它会检测到否定词not,并将good替换为其反义词bad。这句话应该是:Themoviewasthatbad.虽然我发现这不是最优雅的方式,而且在很多情况下它可能会产生

python - NLTK/NLP 构建多对多/多标签主题分类器

我有一个人工标记的语料库,其中包含5000多个XML主题索引文档。它们的大小从几百千字节到几百兆字节不等。短文转手稿。它们都被索引到了段落级别。我很幸运有这样的语料库,我正在尝试自学一些NLP概念。诚然,我才刚刚开始。到目前为止,只阅读了免费提供的NLTK书籍,streamhacker,并略读jacobs(?)NLTK食谱。我喜欢尝试一些想法。有人向我建议,也许我可以采用二元语法并使用朴素贝叶斯分类来标记新文档。我觉得这是错误的做法。朴素贝叶斯精通真/假关系,但要在我的分层标签集上使用它,我需要为每个标签构建一个新的分类器。其中将近1000个。我有足够的内存和处理器能力来完成这样的任务

python - 使用机器学习或 NLP 处理格式错误的文本数据

我正在尝试从一些包含人物条目的大型文本文件中提取数据。但问题是,我无法控制数据到达我的方式。通常是这样的格式:LASTNAME,FirstnameMiddlename(MaybeaNickname)WhyisthistexthereJanuary,25,2012FirstnameLastname2001SometextthatIdon'tcareaboutLastname,Firstnameblahblah...January25,2012...目前,我正在使用一个巨大正则表达式来拆分所有kindaCamelcase单词,所有在末尾添加月份名称的单词,以及许多特殊情况名字。然后我使用更

基于RNN+CNN实现NLP判别新闻真伪

前言大家好,我是阿光。本专栏整理了《PyTorch深度学习项目实战100例》,内包含了各种不同的深度学习项目,包含项目原理以及源码,每一个项目实例都附带有完整的代码+数据集。正在更新中~✨?我的项目环境:平台:Windows10语言环境:python3.7编译器:PyCharmPyTorch版本:1.8.1?项目专栏:【PyTorch深度学习项目实战100例】一、基于RNN+CNN实现NLP判别新闻真伪在当今时代,传播错误信息已经成为一个真正的问题,许多公司正在采取措施,使普通人认识到传播错误信息的后果。衡量网上发布的新闻的真实性是无法确定的,因为对新闻进行人工分类是很繁琐和耗时的,而且也会有

python - 一些与 Python 中的语法、标记、词干提取和词义消歧有关的 NLP 内容

背景(TLDR;为了完成而提供)就奇怪需求的最佳解决方案寻求建议。我是大学四年级的(文学)学生,只有我自己的编程指导。我对Python足够胜任,因此我不会在实现我找到的解决方案(大部分时间)并对其进行开发时遇到问题,但由于我的新手,我正在寻求有关解决这个特殊问题的最佳方法的建议.已经在使用NLTK,但与NLTK书中的示例不同。我已经在利用NLTK的很多东西,特别是WordNet,所以这些Material对我来说并不陌生。我已经阅读了大部分NLTK书籍。我正在使用零散的原子语言。用户输入单词和句子片段,WordNet用于寻找输入之间的联系,并生成新的单词和句子/片段。我的问题是关于将Wo

python - 使用什么 NLP 工具来匹配具有相似含义或语义的短语

我正在从事一个项目,该项目要求我将一个短语或关键词与一组相似的关键词相匹配。我需要对其进行语义分析。一个例子:相关QT便宜的健康保险负担得起的健康保险低成本医疗保险更少的健康计划廉价的健康保险通用含义低成本健康保险此处CommonMeaning列下的单词应与RelevantQT列下的单词匹配。我研究了一堆工具和技术来做同样的事情。S-Match看起来很有前途,但我必须在Python中工作,而不是在Java中。潜在语义分析看起来也不错,但我认为它更适合基于关键字而不是关键字匹配的文档分类。我对NLTK比较熟悉。有人可以就我应该朝哪个方向前进以及我应该使用哪些工具提供一些见解吗?

【NLP】第 6 章:用于文本分类的卷积神经网络

     🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃🎁欢迎各位→点赞👍+收藏⭐️+留言📝​📣系列专栏-机器学习【ML】 自然语言处理【NLP】 深度学习【DL】​ 🖍foreword✔说明⇢本人讲解主要包括Python、机器学习(ML)、深度学习(DL)、自然语言处理(NLP)等内容。如果你对这个系列感兴趣的话,可以关注订阅哟👋目录探索CNN卷积NLP的卷积构建用于文本分类的CNN定义多类分类数据集创建迭代器来加载数据构建CNN模型训练CNN使用经过训练的CNN进行预测概括在上一章中,我们展