NLP_草庐IT

php - N-gram : Explanation + 2 applications

我想用n-gram实现一些应用程序(最好用PHP)。哪种类型的n-gram更适合大多数用途？单词级别还是字符级别的n-gram？如何在PHP中实现n-gram-tokenizer？首先，我想知道N-gram到底是什么。这个对吗？这就是我对n-gram的理解:句子:“我住在纽约。”词级二元组(n为2):“#I”、“Ilive”、“livein”、“inNY”、“NY#”字符级二元组(2个代表n):“#I”、“I#”、“#l”、“li”、“iv”、“ve”、“e#”、“#i”、“in”","n#","#N","NY","Y#"当您拥有这个n-gram-parts数组时，您可以删除重复的部分

php - N-gram : Explanation + 2 applications

我想用n-gram实现一些应用程序(最好用PHP)。哪种类型的n-gram更适合大多数用途？单词级别还是字符级别的n-gram？如何在PHP中实现n-gram-tokenizer？首先，我想知道N-gram到底是什么。这个对吗？这就是我对n-gram的理解:句子:“我住在纽约。”词级二元组(n为2):“#I”、“Ilive”、“livein”、“inNY”、“NY#”字符级二元组(2个代表n):“#I”、“I#”、“#l”、“li”、“iv”、“ve”、“e#”、“#i”、“in”","n#","#N","NY","Y#"当您拥有这个n-gram-parts数组时，您可以删除重复的部分

applications Explanation n-gram gram code php nlp analysis

自然语言处理 Paddle NLP - 文本语义相似度计算（ERNIE-Gram）

基于预训练模型ERNIE-Gram实现语义匹配1.背景介绍文本语义匹配任务，简单来说就是给定两段文本，让模型来判断两段文本是不是语义相似。在本案例中以权威的语义匹配数据集LCQMC为例，LCQMC数据集是基于百度知道相似问题推荐构造的通问句语义匹配数据集。训练集中的每两段文本都会被标记为1（语义相似）或者0（语义不相似）。更多数据集可访问千言获取哦。例如百度知道场景下，用户搜索一个问题，模型会计算这个问题与候选问题是否语义相似，语义匹配模型会找出与问题语义相似的候选问题返回给用户，加快用户提问-获取答案的效率。例如，当某用户在搜索引擎中搜索“深度学习的教材有哪些？”，模型就自动找到了一些语义相

自然语言语义模型 code 数据人工智能

php - 使用 PHP 进行文本挖掘

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭7年前。Improvethisquestion我正在为我正在上的大学类(class)做一个项目。我正在使用PHP构建一个简单的Web应用程序，它根据一组词典将推文分类为“正面”(或快乐)和“负面”(或悲伤)。我现在想到的算法是朴素贝叶斯分类器或决策树。但是，我找不到任何可以帮助我进行一些严肃的语言处理的PHP库。Python有NLTK(http://www.nltk.org)。PHP有类似的东西吗？我打算使用WE

挖掘 php section class notice nlp data-mining nltk weka

php - 使用 PHP 进行文本挖掘

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭7年前。Improvethisquestion我正在为我正在上的大学类(class)做一个项目。我正在使用PHP构建一个简单的Web应用程序，它根据一组词典将推文分类为“正面”(或快乐)和“负面”(或悲伤)。我现在想到的算法是朴素贝叶斯分类器或决策树。但是，我找不到任何可以帮助我进行一些严肃的语言处理的PHP库。Python有NLTK(http://www.nltk.org)。PHP有类似的东西吗？我打算使用WE

挖掘 php section class notice nlp data-mining nltk weka

php - 在 PHP 中解析日期字符串

给定一个任意字符串，例如(“下周五我要去玩槌球”或“Gadzooks，已经是6月17日了吗？”)，如何你会从那里提取日期吗？如果这看起来像是太硬篮子的一个很好的候选者，也许你可以建议一个替代方案。我希望能够解析Twitter消息中的日期。我要查看的推文将是用户针对此服务的推文，因此可以指导他们使用更简单的格式，但我希望它尽可能透明。您能想到一个好的中间立场吗？最佳答案如果您有能力，可以尝试以下算法。我正在展示一个例子，把繁琐的工作留给你:)//Attempttoperformstrtotime()oneachcontiguous

php strtotime 34 section datetime parsing nlp

php - 在 PHP 中解析日期字符串

给定一个任意字符串，例如(“下周五我要去玩槌球”或“Gadzooks，已经是6月17日了吗？”)，如何你会从那里提取日期吗？如果这看起来像是太硬篮子的一个很好的候选者，也许你可以建议一个替代方案。我希望能够解析Twitter消息中的日期。我要查看的推文将是用户针对此服务的推文，因此可以指导他们使用更简单的格式，但我希望它尽可能透明。您能想到一个好的中间立场吗？最佳答案如果您有能力，可以尝试以下算法。我正在展示一个例子，把繁琐的工作留给你:)//Attempttoperformstrtotime()oneachcontiguous

php strtotime 34 section datetime parsing nlp

php - 从多个句子中选择或生成规范变体

我正在使用将我的GTIN/EAN查询映射到产品数据的API。由于返回的数据来自商家产品Feed，因此几乎普遍存在以下情况:每个GTIN的多个结果产品的标题几乎没有结构产品的标题被“污染”了SEO相关内容，有关所含数量的信息，“买二送一”优惠，等等我正在寻找一种程序化的方式来实现这两者选择可用的“最干净”/最规范的版本或生成一个代表“最小公分母”的新值。考虑以下单个EAN查询的示例结果:NiveaDeoRoll-OnDryImpactforMenNIVEADEORollonDry/blauNiveaDeoRoll-OnDryImpactforMen，50毫升，3件装(3x50毫升)Niv

变体中选 li strong code php text-mining information-extraction nlp

php - 从多个句子中选择或生成规范变体

我正在使用将我的GTIN/EAN查询映射到产品数据的API。由于返回的数据来自商家产品Feed，因此几乎普遍存在以下情况:每个GTIN的多个结果产品的标题几乎没有结构产品的标题被“污染”了SEO相关内容，有关所含数量的信息，“买二送一”优惠，等等我正在寻找一种程序化的方式来实现这两者选择可用的“最干净”/最规范的版本或生成一个代表“最小公分母”的新值。考虑以下单个EAN查询的示例结果:NiveaDeoRoll-OnDryImpactforMenNIVEADEORollonDry/blauNiveaDeoRoll-OnDryImpactforMen，50毫升，3件装(3x50毫升)Niv

变体中选 li strong code php text-mining information-extraction nlp

php - 产生真实单词的词干提取算法

我需要提取一段文本并从中提取“标签”列表。其中大部分是非常直接的。但是，我现在需要一些帮助来阻止生成的单词列表以避免重复。示例:社区/社区我使用了PorterStemmer算法的实现(顺便说一下，我是用PHP编写的):http://tartarus.org/~martin/PorterStemmer/php.txt这在一定程度上有效，但不会返回“真实”单词。上面的例子源于“commun”。我尝试过“Snowball”(在另一个StackOverflow线程中建议)。http://snowball.tartarus.org/demo.php对于我的示例(社区/社区)，Snowball源于

单词 php 词形 section nlp stemming snowball porter-stemmer