草庐IT

相似度比对

全部标签

php - 比较大量相似文本的最简单方法是什么?

这里有点开放式问题,因为我主要是在寻找意见。因为我想搬家,所以我正在从craigslist获取我所在地区的apt广告的一些数据。我的目标是能够比较项目,看看什么时候是重复的,这样我就不会整天都在看相同的3个广告。问题是他们稍微改变了一些东西以通过CL的过滤器。我已经有一些正则表达式来查找要比较的地址和电话号码,但这不是最可靠的。有没有人熟悉一种简单的方法来比较整个文档并可能显示一些简单的东西,比如“80%相似”?我想不出任何随手可得的东西,所以我怀疑我必须从头开始制定我自己的解决方案,但我认为值得向stackoverflow的集体天才求教:)首选语言/方法是python/php/per

PHP 在相似元素上组合数组

我有一些这种格式的数据:even--heapedeven--treeshardrocks-cockedpebble-templeheaped-feasttrees-feast我想以一个输出结束,这样所有具有相同单词的行都会相互添加而不会重复。even--heaped--trees--feasthardrocks--cockedpebbles-temple我尝试了一个遍历两个数组的循环,但它不是我想要的确切结果。对于数组$thing:Array([0]=>even--heaped[1]=>even--trees[2]=>hardrocks--cocked[3]=>pebbles--tem

Synonyms 中文近义词工具包 -- 支持文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等

GitHub-chatopera/Synonyms:中文近义词:聊天机器人,智能问答工具包SynonymsChineseSynonymsforNaturalLanguageProcessingandUnderstanding.更好的中文近义词:聊天机器人、智能问答工具包。synonyms可以用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等。TableofContent:InstallUsageQuickGetStartValuationBenchmarkStatementReferencesFrequentlyAskedQuest

php - 使用 k-means 进行文档聚类,聚类应该基于余弦相似度还是术语向量?

抱歉,如果这个问题的答案很明显,请客气,这是我第一次来这里:-)如果有人可以指导我使用适合k-means的输入数据结构,我将不胜感激。我正在写一篇硕士论文,其中我提出了一种新的TF-IDF术语权衡方法,该方法特定于我的领域。我想使用k-means对结果进行聚类,然后应用一些内部和外部评估标准来查看我的新术语加权方法是否有任何优点。到目前为止我的步骤(用PHP实现),所有工作都是第一步:读入文献集第二步:清理文档集合、特征提取、特征选择第3步:词频(TF)第4步:逆文档频率(IDF)第五步:TF*IDF第6步:将TF-IDF归一化为固定长度的向量我挣扎的地方是第七步:向量空间模型——余弦

php - 对不同(但相似)的业务程序使用不同的表是一种好习惯吗?

有一个非常相似的问题:Modelingproductswithvastlydifferentsetsofneeded-to-knowinformationandlinkingthemtolineitems?但是我找不到对我有帮助的答案;上述问答中有人指向designingdatabasetoholddifferentmetadatainformation,它有一个很好的公认答案,但由于我的程序明确需要搜索功能,我不希望性能受到影响。我是一名“技术员”,使用PHP+Oracle来跟踪我们公司的销售进度并生成报告。我们的工作流程通常如下所示:营销人员为我的系统提供准备好的数据集;一线员工(

php - 寻找对相似数据进行分组的算法

一个简单的问题,却折磨了我好几天...我有一个包含2个别名的数组(php)作为输入,比方说:Array(Array(1,5),Array(6,8),Array(6,1),Array(9,3),)每个状态“1”与“5”相同,“6”与“8”相同,...很简单,现在我需要将它们分组,看看上面的例子,如果我问得好的话,算法应该给我两组:Array(1,5,6,8)andArray(9,3)简单的换向逻辑,但我找不到用代码解决它的方法!任何指南将不胜感激!! 最佳答案 您可以使用联合查找算法以惊人的速度完成此操作。我们的想法是拥有一片树木森林

java - 如果具有相同接口(interface)的类具有相似但不同的方法签名怎么办?

如果具有相同接口(interface)的类具有相似但不同的方法签名怎么办?假设我有一个计算不同成本的项目(最终获得总成本)。在我的程序中,有几个计算器类,分别是ACostCalculator、BCostCalculator等。当调用calculate()方法来计算成本时,成本容器也会传递给那些成本计算器。在一个好的场景中,我可以为每个成本计算器制作一个CostCalculator接口(interface)。但是,不同成本的计算需要不同的资源。在我当前的程序中,它就像://getResource()arecostlymethodwhileseveralcostsneedthis.Sodo

java - toString()、==、equals() 对象方法在引用和原始类型上的工作方式有何不同或相似?

toString()方法、==运算符和equals()方法在引用和原始类型上的工作方式有何不同或相似之处? 最佳答案 对于常规类型(包括String):==比较对象引用。它测试两个对象引用是否相等;即,如果它们指的是同一个对象。equals(Object)测试这个对象是否“等于”另一个对象。“等于”的含义取决于对象的类如何定义相等性。java.lang.Object类将equals(other)定义为this==other,但许多类会覆盖此定义。toString()提供对象到字符串的简单转换。生成的字符串的格式和内容是特定于类的,并

java - 当 equals() 使用相似性度量时覆盖 hashCode() 以与 equals() 一致

假设我有一个带有字段颜色和型号的汽车类。我需要将汽车存储在一个集合中,其中我不会重复(没有2辆相同的汽车)。在下面的示例中,我使用的是HashMap。根据Java文档,如果我们有2个Car对象car1和car2满足car1.equals(car2)==true,那么它还必须包含car1.hashCode()==car2.hashCode()。所以在这个例子中,如果我想只通过颜色比较汽车,那么我将只使用equals()和hashCode()中的颜色字段,正如我所做的那样在我的代码中,它工作得很好。publicclassCar{Stringcolor;Stringmodel;@Overri

java - 如何合并相似对象的列表,但用 Java 8 总结一些属性

假设我有下面的列表,我想返回一个结果,其中只有一个人的名字是"Sam"-"Fred"但25数量publicclassJava8Test{privatestaticclassPerson{privateStringname;privateStringlastName;privateintamount;publicPerson(Stringname,StringlastName,intamount){this.name=name;this.lastName=lastName;this.amount=amount;}}publicstaticvoidmain(String[]args){Li