NLP_草庐IT

python - 如何检查一个句子是否正确(Python中的简单语法检查)？

Python中如何判断一个句子是否有效？例子:IloveStackoverflow-CorrectIStackoverflowlove-Incorrect 最佳答案有各种提供自动校对和语法检查的Web服务。有些有一个Python库来简化查询。据我所知，这些工具中的大多数(当然是在截止日期之后和LanguageTool)都是基于规则的。将检查的文本与描述常见错误的大量规则进行比较。如果规则匹配，软件将其称为错误。如果规则不匹配，软件什么也不做(它无法检测到它没有规则的错误)。AftertheDeadlineimportATDATD.

句子 python matches gt noreferrer nlp grammar

python - 如何检查一个句子是否正确(Python中的简单语法检查)？

Python中如何判断一个句子是否有效？例子:IloveStackoverflow-CorrectIStackoverflowlove-Incorrect 最佳答案有各种提供自动校对和语法检查的Web服务。有些有一个Python库来简化查询。据我所知，这些工具中的大多数(当然是在截止日期之后和LanguageTool)都是基于规则的。将检查的文本与描述常见错误的大量规则进行比较。如果规则匹配，软件将其称为错误。如果规则不匹配，软件什么也不做(它无法检测到它没有规则的错误)。AftertheDeadlineimportATDATD.

句子 python matches gt noreferrer nlp grammar

python - 序数替换

我目前正在寻找用适当的序数表示(1st、2nd、3rd)替换第一、第二、第三等单词的方法。上周我一直在谷歌上搜索，但没有找到任何有用的标准工具或NLTK的任何功能。那么有什么或者我应该手动编写一些正则表达式吗？感谢您的建议最佳答案包裹number-parser可以将序数词(“first”、“second”等)解析为整数。fromnumber_parserimportparse_ordinaln=parse_ordinal("first")要将整数转换为“1st”、“2nd”等，您可以使用以下命令(取自Garethoncodego

python 序数 39 th section nlp nltk ordinals

python - 序数替换

我目前正在寻找用适当的序数表示(1st、2nd、3rd)替换第一、第二、第三等单词的方法。上周我一直在谷歌上搜索，但没有找到任何有用的标准工具或NLTK的任何功能。那么有什么或者我应该手动编写一些正则表达式吗？感谢您的建议最佳答案包裹number-parser可以将序数词(“first”、“second”等)解析为整数。fromnumber_parserimportparse_ordinaln=parse_ordinal("first")要将整数转换为“1st”、“2nd”等，您可以使用以下命令(取自Garethoncodego

python 序数 39 th section nlp nltk ordinals

python - 从文本内容生成标签

我很好奇是否存在通过使用一些权重计算、出现率或其他工具从给定文本生成关键字/标签的算法/方法。此外，如果您为此指出任何基于Python的解决方案/库，我将不胜感激。谢谢最佳答案执行此操作的一种方法是提取文档中出现频率高于您预期的单词。例如，假设在更大的文档集合中，“马尔可夫”一词几乎从未见过。但是，在同一集合中的特定文档中，马尔可夫非常频繁地出现。这表明马尔科夫可能是与文档相关联的一个很好的关键字或标签。要识别这样的关键字，您可以使用point-wisemutualinformation关键字和文档。这由PMI(term,doc

python 从文马尔 section collocations tags machine-learning nlp nltk

python - 从文本内容生成标签

我很好奇是否存在通过使用一些权重计算、出现率或其他工具从给定文本生成关键字/标签的算法/方法。此外，如果您为此指出任何基于Python的解决方案/库，我将不胜感激。谢谢最佳答案执行此操作的一种方法是提取文档中出现频率高于您预期的单词。例如，假设在更大的文档集合中，“马尔可夫”一词几乎从未见过。但是，在同一集合中的特定文档中，马尔可夫非常频繁地出现。这表明马尔科夫可能是与文档相关联的一个很好的关键字或标签。要识别这样的关键字，您可以使用point-wisemutualinformation关键字和文档。这由PMI(term,doc

python 从文马尔 section collocations tags machine-learning nlp nltk

NLP之文本聚类算法综述

NLP之文本聚类算法综述文本聚类算法综述常见算法通用场景评估指标实现流程代码实现文本聚类算法综述常见算法常见的文本聚类算法有以下几种：K-Means：是最常见的聚类算法，通过迭代不断更新聚类中心来实现文本聚类。HierarchicalClustering：分层聚类算法，通过不断合并或分裂聚类簇来实现文本聚类。DBSCAN：基于密度的聚类算法，通过找到密度相连的点形成聚类簇。SpectralClustering：谱聚类算法，通过计算图的特征向量来实现文本聚类。AffinityPropagation：传播关系聚类算法，通过关系传递来实现文本聚类。这些算法的选择取决于数据的性质和聚类的目的。例如，如

算法综述 span class token 聚类自然语言处理文本聚类轮廓系数

python - 具有自定义数据的 NLTK 命名实体识别

我正在尝试使用NLTK从我的文本中提取命名实体。我发现NLTKNER对我的目的来说不是很准确，我也想添加更多我自己的标签。我一直在尝试找到一种方法来训练我自己的NER，但我似乎无法找到合适的资源。我有几个关于NLTK的问题-我可以使用自己的数据在NLTK中训练命名实体识别器吗？如果我可以使用自己的数据进行训练，named_entity.py是要修改的文件吗？输入文件格式是否必须在IOB中，例如。EricNNPB人？除了我可以使用的nltk食谱和nlpwithpython之外，还有其他资源吗？我非常感谢这方面的帮助最佳答案您是否致

自定命名 section 识别器 NLTK python nlp named-entity-recognition

python - 具有自定义数据的 NLTK 命名实体识别

我正在尝试使用NLTK从我的文本中提取命名实体。我发现NLTKNER对我的目的来说不是很准确，我也想添加更多我自己的标签。我一直在尝试找到一种方法来训练我自己的NER，但我似乎无法找到合适的资源。我有几个关于NLTK的问题-我可以使用自己的数据在NLTK中训练命名实体识别器吗？如果我可以使用自己的数据进行训练，named_entity.py是要修改的文件吗？输入文件格式是否必须在IOB中，例如。EricNNPB人？除了我可以使用的nltk食谱和nlpwithpython之外，还有其他资源吗？我非常感谢这方面的帮助最佳答案您是否致

自定命名 section 识别器 NLTK python nlp named-entity-recognition

python - 如何确定一段文本的语言？

我想得到这个:Inputtext:"ру́сскийязы́к"Outputtext:"Russian"Inputtext:"中文"Outputtext:"Chinese"Inputtext:"にほんご"Outputtext:"Japanese"Inputtext:"العَرَبِيَّة"Outputtext:"Arabic"我如何在python中做到这一点？最佳答案 1。TextBlob.需要NLTK包，使用Google。fromtextblobimportTextBlobb=TextBlob("bonjour")b.det

python 如何 code noreferrer nofollow nlp