草庐IT

向量距离与相似度函数

beyoncewxm 2023-03-28 原文

假设当前有两个nn维向量xx和yy (除非特别说明,本文默认依此写法表示向量),可以通过两个向量之间的距离或者相似度来判定这两个向量的相近程度,显然两个向量之间距离越小,相似度越高;两个向量之间距离越大,相似度越低。

1. 常见的距离计算方式

1.1 闵可夫斯基距离(Minkowski Distance)

\[Minkowski\;Distance = {(\sum\limits_{i = 1}^n {|{x_i} - {y_i}{|^p}} )^{\frac{1}{p}}}\]
Minkowski Distane 是对多个距离度量公式概括性的表述,当p=1p=1时,Minkowski Distane 便是曼哈顿距离;当p=2p=2时,Minkowski Distane 便是欧式距离;Minkowski Distane 取极限的形式便是切比雪夫距离。

1.2 曼哈顿距离(Manhattan Distance)

\[Manhattan\;Distance = (\sum\limits_{i = 1}^n | {x_i} - {y_i}|)\]

1.3 欧式距离/欧几里得距离(Euclidean distance)

\[Euclidean\;Distance = \sqrt {\sum\limits_{i = 1}^n {{{({x_i} - {y_i})}^2}} } \]

1.4 切比雪夫距离(Chebyshev Distance)

\[\mathop {{\rm{lim}}}\limits_{p \to \infty } {(\sum\limits_{i = 1}^n {|{x_i} - {y_i}{|^p}} )^{\frac{1}{p}}} = {\rm{max}}\;(|{x_i} - {y_i}|)\]

1.5 海明距离(Hamming Distance)

在信息论中,两个等长字符串之间的海明距离是两个字符串对应位置的不同字符的个数。假设有两个字符串分别是:x=[x1,x2,...,xn]x=[x1,x2,...,xn]和y=[y1,y2,...,yn]y=[y1,y2,...,yn],则两者的距离为:

\[Hamming\;Distance = \sum\limits_{i = 1}^n {{\rm{II}}} ({x_i} = {y_i})\]

其中IIII表示指示函数,两者相同为1,否则为0。

1.6 KL散度

给定随机变量XX和两个概率分布PP和QQ,KL散度可以用来衡量两个分布之间的差异性,其公式如下:

\[KL(P||Q) = \sum x \in Xp(x)logP(x)Q(x)\]

2. 常见的相似度函数

2.1 余弦相似度(Cosine Similarity)

\[Cosine\;Similarity = \frac{{x \cdot y}}{{|x| \cdot |y|}} = \frac{{\sum\limits_{i = 1}^n {{x_i}} {y_i}}}{{\sqrt {\sum\limits_{i = 1}^n {x_i^2} } \sqrt {\sum\limits_{i = 1}^n {y_i^2} } }}\]

2.2 皮尔逊相关系数 (Pearson Correlation Coefficient)

给定两个随机变量XX和YY,皮尔逊相关系数可以用来衡量两者的相关程度,公式如下:

\[\begin{array}{*{20}{l}}
{{\rho _{x,y}}}&{ = \frac{{cov(X,Y)}}{{{\sigma _X}{\sigma _Y}}} = \frac{{E[(X - {\mu _X})(Y - {\mu _Y})]}}{{{\sigma _X}{\sigma _Y}}}}\\
{}&{ = \frac{{\sum\limits_{i = 1}^n {({X_i} - \bar X)} ({Y_i} - \bar Y)}}{{\sqrt {\sum\limits_{i = 1}^n {{{({X_i} - \bar X)}^2}} } \sqrt {\sum\limits_{i = 1}^n {{{({Y_i} - \bar Y)}^2}} } }}}
\end{array}\]

其中μXμX和μYμY分别表示向量XX和YY的均值,σXσX和σYσY分别表示向量XX和YY的标准差。

2.3 Jaccard 相似系数(Jaccard Coefficient)

假设有两个集合XX和YY(注意这里的两者不是向量),则其计算公式为:

\[Jaccard(X,Y) = \frac{{X \cup Y}}{{X \cap Y}}\]

有关向量距离与相似度函数的更多相关文章

  1. ruby - 在没有 sass 引擎的情况下使用 sass 颜色函数 - 2

    我想在一个没有Sass引擎的类中使用Sass颜色函数。我已经在项目中使用了sassgem,所以我认为搭载会像以下一样简单:classRectangleincludeSass::Script::FunctionsdefcolorSass::Script::Color.new([0x82,0x39,0x06])enddefrender#hamlengineexecutedwithcontextofself#sothatwithintemlateicouldcall#%stop{offset:'0%',stop:{color:lighten(color)}}endend更新:参见上面的#re

  2. ruby-on-rails - 在 ruby​​ 中使用 gsub 函数替换单词 - 2

    我正在尝试用ruby​​中的gsub函数替换字符串中的某些单词,但有时效果很好,在某些情况下会出现此错误?这种格式有什么问题吗NoMethodError(undefinedmethod`gsub!'fornil:NilClass):模型.rbclassTest"replacethisID1",WAY=>"replacethisID2andID3",DELTA=>"replacethisID4"}end另一个模型.rbclassCheck 最佳答案 啊,我找到了!gsub!是一个非常奇怪的方法。首先,它替换了字符串,所以它实际上修改了

  3. ruby - 在 Ruby 中有条件地定义函数 - 2

    我有一些代码在几个不同的位置之一运行:作为具有调试输出的命令行工具,作为不接受任何输出的更大程序的一部分,以及在Rails环境中。有时我需要根据代码的位置对代码进行细微的更改,我意识到以下样式似乎可行:print"Testingnestedfunctionsdefined\n"CLI=trueifCLIdeftest_printprint"CommandLineVersion\n"endelsedeftest_printprint"ReleaseVersion\n"endendtest_print()这导致:TestingnestedfunctionsdefinedCommandLin

  4. ruby - 在 Ruby 中按名称传递函数 - 2

    如何在Ruby中按名称传递函数?(我使用Ruby才几个小时,所以我还在想办法。)nums=[1,2,3,4]#Thisworks,butismoreverbosethanI'dlikenums.eachdo|i|putsiend#InJS,Icouldjustdosomethinglike:#nums.forEach(console.log)#InF#,itwouldbesomethinglike:#List.iternums(printf"%A")#InRuby,IwishIcoulddosomethinglike:nums.eachputs在Ruby中能不能做到类似的简洁?我可以只

  5. C51单片机——实现用独立按键控制LED亮灭(调用函数篇) - 2

    说在前面这部分我本来是合为一篇来写的,因为目的是一样的,都是通过独立按键来控制LED闪灭本质上是起到开关的作用,即调用函数和中断函数。但是写一篇太累了,我还是决定分为两篇写,这篇是调用函数篇。在本篇中你主要看到这些东西!!!1.调用函数的方法(主要讲语法和格式)2.独立按键如何控制LED亮灭3.程序中的一些细节(软件消抖等)1.调用函数的方法思路还是比较清晰地,就是通过按下按键来控制LED闪灭,即每按下一次,LED取反一次。重要的是,把按键与LED联系在一起。我打算用K1来作为开关,看了一下开发板原理图,K1连接的是单片机的P31口,当按下K1时,P31是与GND相连的,也就是说,当我按下去时

  6. ruby-on-rails - 将字符串转换为 ruby​​-on-rails 中的函数 - 2

    我需要一个通过输入字符串进行计算的方法,像这样function="(a/b)*100"a=25b=50function.something>>50有什么方法吗? 最佳答案 您可以使用instance_eval:function="(a/b)*100"a=25.0b=50instance_evalfunction#=>50.0请注意,使用eval本质上是不安全的,尤其是当您使用外部输入时,因为它可能包含注入(inject)的恶意代码。另请注意,a设置为25.0而不是25,因为如果它是整数a/b将导致0(整数)。

  7. ruby-on-rails - 需要帮助最大化多个相似对象中的 3 个因素并适当排序 - 2

    我需要用任何语言编写一个算法,根据3个因素对数组进行排序。我以度假村为例(如Hipmunk)。假设我想去度假。我想要最便宜的地方、最好的评论和最多的景点。但是,显然我找不到在所有3个中都排名第一的方法。Example(assumingthereare20importantattractions):ResortA:$150/night...98/100infavorablereviews...18of20attractionsResortB:$99/night...85/100infavorablereviews...12of20attractionsResortC:$120/night

  8. ruby - 在 ruby​​ 中使用 .try 函数和 .map 函数 - 2

    我需要从json记录中获取一些值并像下面这样提取curr_json_doc['title']['genre'].map{|s|s['name']}.join(',')但对于某些记录,curr_json_doc['title']['genre']可以为空。所以我想对map和join()使用try函数。我试过如下curr_json_doc['title']['genre'].try(:map,{|s|s['name']}).try(:join,(','))但是没用。 最佳答案 你没有正确传递block。block被传递给参数括号外的方法

  9. ruby - 是否可以从也在该模块中的类内部调用模块函数 - 2

    在这段Ruby代码中:ModuleMClassC当我尝试运行时出现“'M:Module'的未定义方法'helper'”错误c=M::C.new("world")c.work但直接从另一个类调用M::helper("world")工作正常。类不能调用在定义它们的同一模块中定义的模块函数吗?除了将类移出模块外,还有其他解决方法吗? 最佳答案 为了调用M::helper,你需要将它定义为defself.helper;结束为了进行比较,请查看以下修改后的代码段中的helper和helper2moduleMclassC

  10. ruby - 将运算符传递给函数? - 2

    也许这听起来很荒谬,但我想知道这对Ruby是否可行?基本上我有一个功能...defadda,bc=a+breturncend我希望能够将“+”或其他运算符(例如“-”)传递给函数,这样它就类似于...defsuma,b,operatorc=aoperatorbreturncend这可能吗? 最佳答案 两种可能性:以方法/算子名作为符号:defsuma,b,operatora.send(operator,b)endsum42,23,:+或者更通用的解决方案:采取一个block:defsuma,byielda,bendsum42,23,

随机推荐