草庐IT

php - N-gram : Explanation + 2 applications

我想用n-gram实现一些应用程序(最好用PHP)。哪种类型的n-gram更适合大多数用途?单词级别还是字符级别的n-gram?如何在PHP中实现n-gram-tokenizer?首先,我想知道N-gram到底是什么。这个对吗?这就是我对n-gram的理解:句子:“我住在纽约。”词级二元组(n为2):“#I”、“Ilive”、“livein”、“inNY”、“NY#”字符级二元组(2个代表n):“#I”、“I#”、“#l”、“li”、“iv”、“ve”、“e#”、“#i”、“in”","n#","#N","NY","Y#"当您拥有这个n-gram-parts数组时,您可以删除重复的部分

php - N-gram : Explanation + 2 applications

我想用n-gram实现一些应用程序(最好用PHP)。哪种类型的n-gram更适合大多数用途?单词级别还是字符级别的n-gram?如何在PHP中实现n-gram-tokenizer?首先,我想知道N-gram到底是什么。这个对吗?这就是我对n-gram的理解:句子:“我住在纽约。”词级二元组(n为2):“#I”、“Ilive”、“livein”、“inNY”、“NY#”字符级二元组(2个代表n):“#I”、“I#”、“#l”、“li”、“iv”、“ve”、“e#”、“#i”、“in”","n#","#N","NY","Y#"当您拥有这个n-gram-parts数组时,您可以删除重复的部分

自然语言处理 Paddle NLP - 文本语义相似度计算(ERNIE-Gram)

基于预训练模型ERNIE-Gram实现语义匹配1.背景介绍文本语义匹配任务,简单来说就是给定两段文本,让模型来判断两段文本是不是语义相似。在本案例中以权威的语义匹配数据集LCQMC为例,LCQMC数据集是基于百度知道相似问题推荐构造的通问句语义匹配数据集。训练集中的每两段文本都会被标记为1(语义相似)或者0(语义不相似)。更多数据集可访问千言获取哦。例如百度知道场景下,用户搜索一个问题,模型会计算这个问题与候选问题是否语义相似,语义匹配模型会找出与问题语义相似的候选问题返回给用户,加快用户提问-获取答案的效率。例如,当某用户在搜索引擎中搜索“深度学习的教材有哪些?”,模型就自动找到了一些语义相

php - 使用 PHP 进行文本挖掘

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭7年前。Improvethisquestion我正在为我正在上的大学类(class)做一个项目。我正在使用PHP构建一个简单的Web应用程序,它根据一组词典将推文分类为“正面”(或快乐)和“负面”(或悲伤)。我现在想到的算法是朴素贝叶斯分类器或决策树。但是,我找不到任何可以帮助我进行一些严肃的语言处理的PHP库。Python有NLTK(http://www.nltk.org)。PHP有类似的东西吗?我打算使用WE

php - 使用 PHP 进行文本挖掘

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭7年前。Improvethisquestion我正在为我正在上的大学类(class)做一个项目。我正在使用PHP构建一个简单的Web应用程序,它根据一组词典将推文分类为“正面”(或快乐)和“负面”(或悲伤)。我现在想到的算法是朴素贝叶斯分类器或决策树。但是,我找不到任何可以帮助我进行一些严肃的语言处理的PHP库。Python有NLTK(http://www.nltk.org)。PHP有类似的东西吗?我打算使用WE

php - 在 PHP 中解析日期字符串

给定一个任意字符串,例如(“下周五我要去玩槌球”或“Gadzooks,已经是6月17日了吗?”),如何你会从那里提取日期吗?如果这看起来像是太硬篮子的一个很好的候选者,也许你可以建议一个替代方案。我希望能够解析Twitter消息中的日期。我要查看的推文将是用户针对此服务的推文,因此可以指导他们使用更简单的格式,但我希望它尽可能透明。您能想到一个好的中间立场吗? 最佳答案 如果您有能力,可以尝试以下算法。我正在展示一个例子,把繁琐的工作留给你:)//Attempttoperformstrtotime()oneachcontiguous

php - 在 PHP 中解析日期字符串

给定一个任意字符串,例如(“下周五我要去玩槌球”或“Gadzooks,已经是6月17日了吗?”),如何你会从那里提取日期吗?如果这看起来像是太硬篮子的一个很好的候选者,也许你可以建议一个替代方案。我希望能够解析Twitter消息中的日期。我要查看的推文将是用户针对此服务的推文,因此可以指导他们使用更简单的格式,但我希望它尽可能透明。您能想到一个好的中间立场吗? 最佳答案 如果您有能力,可以尝试以下算法。我正在展示一个例子,把繁琐的工作留给你:)//Attempttoperformstrtotime()oneachcontiguous

php - 从多个句子中选择或生成规范变体

我正在使用将我的GTIN/EAN查询映射到产品数据的API。由于返回的数据来自商家产品Feed,因此几乎普遍存在以下情况:每个GTIN的多个结果产品的标题几乎没有结构产品的标题被“污染”了SEO相关内容,有关所含数量的信息,“买二送一”优惠,等等我正在寻找一种程序化的方式来实现这两者选择可用的“最干净”/最规范的版本或生成一个代表“最小公分母”的新值。考虑以下单个EAN查询的示例结果:NiveaDeoRoll-OnDryImpactforMenNIVEADEORollonDry/blauNiveaDeoRoll-OnDryImpactforMen,50毫升,3件装(3x50毫升)Niv

php - 从多个句子中选择或生成规范变体

我正在使用将我的GTIN/EAN查询映射到产品数据的API。由于返回的数据来自商家产品Feed,因此几乎普遍存在以下情况:每个GTIN的多个结果产品的标题几乎没有结构产品的标题被“污染”了SEO相关内容,有关所含数量的信息,“买二送一”优惠,等等我正在寻找一种程序化的方式来实现这两者选择可用的“最干净”/最规范的版本或生成一个代表“最小公分母”的新值。考虑以下单个EAN查询的示例结果:NiveaDeoRoll-OnDryImpactforMenNIVEADEORollonDry/blauNiveaDeoRoll-OnDryImpactforMen,50毫升,3件装(3x50毫升)Niv

php - 产生真实单词的词干提取算法

我需要提取一段文本并从中提取“标签”列表。其中大部分是非常直接的。但是,我现在需要一些帮助来阻止生成的单词列表以避免重复。示例:社区/社区我使用了PorterStemmer算法的实现(顺便说一下,我是用PHP编写的):http://tartarus.org/~martin/PorterStemmer/php.txt这在一定程度上有效,但不会返回“真实”单词。上面的例子源于“commun”。我尝试过“Snowball”(在另一个StackOverflow线程中建议)。http://snowball.tartarus.org/demo.php对于我的示例(社区/社区),Snowball源于