草庐IT

python - 欧式距离的高效计算

coder 2023-08-18 原文

我有一个 MxN 数组,其中 M 是观察的数量,N 是每个向量的维数。从这个向量数组中,我需要计算向量之间的 meanminimum 欧氏距离。

在我看来,这需要我计算 MC2 距离,这是一个 O(nmin(k, n-k) ) 算法。我的 M 是~10,000,我的N 是~1,000,这个计算需要~45 秒。

是否有更有效的方法来计算 meanmin 距离?也许是一种概率方法?我不需要它非常精确,只要接近即可。

最佳答案

您没有说明您的矢量来自何处,也没有说明您将如何使用 meanmedian。以下是对一般情况的一些观察。有限的范围、容错和离散值可能允许更有效的方法。

M 个点之间的平均 距离听起来是二次方的,O(M^2)。但是 M/N 是 10,相当小,而 N 很大,所以数据可能类似于 1e3 空间中的毛茸茸的球体。计算 M 个点的质心,然后计算到质心的 M 距离,结果可能对您的问题域有用,但很难说。

M 个点之间的最小 距离更有趣。随机选择少量对,比如 100,计算它们的距离,并取最小值的一半作为全局最小距离的估计。 (如果需要,通过与接下来的几个最小距离进行比较来验证。)现在使用空间 UB-tree将每个点建模为正整数。这涉及为 M x N 值找到 N 个最小值,添加常数以使最小值变为零,缩放以使估计的全局最小距离对应于至少 1.0,然后截断为整数。

有了这些转换后的向量,我们就可以将它们转换为可以排序的 UB 树表示,然后对排序后的值进行最近邻空间查询。为每个点计算一个整数。将每个维度值的低位移入结果,然后迭代。继续迭代所有维度,直到非零位全部被消耗并出现在结果中,然后继续下一点。对整数结果值进行数字排序,产生类似于 PostGIS 索引的数据结构。

现在您有一个离散化表示,它支持对最近邻居的合理高效查询(尽管不可否认 N=1e3 太大了)。在找到两个或多个粗粒度的近邻后,您可以查询原始向量表示以获得它们之间的高分辨率距离,以进行更精细的区分。如果您的数据分布证明有很大一部分点离散化为与最近的邻居相差一位,例如每个氧原子都有伙伴的位置,然后增加全局最小距离估计,以便低阶位提供足够的辨别力。

类似的离散化方法是适当缩放,例如二维输入并标记一个最初为空的网格,然后扫描邻近区域。由于适当的缩放,这依赖于全局最小值在“小”邻域内。在您的情况下,您将标记一个 N 维网格。

关于python - 欧式距离的高效计算,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42882604/

有关python - 欧式距离的高效计算的更多相关文章

  1. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  2. ruby-on-rails - 使用一系列等级计算字母等级 - 2

    这里是Ruby新手。完成一些练习后碰壁了。练习:计算一系列成绩的字母等级创建一个方法get_grade来接受测试分数数组。数组中的每个分数应介于0和100之间,其中100是最大分数。计算平均分并将字母等级作为字符串返回,即“A”、“B”、“C”、“D”、“E”或“F”。我一直返回错误:avg.rb:1:syntaxerror,unexpectedtLBRACK,expecting')'defget_grade([100,90,80])^avg.rb:1:syntaxerror,unexpected')',expecting$end这是我目前所拥有的。我想坚持使用下面的方法或.join,

  3. Python 相当于 Perl/Ruby ||= - 2

    这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意,但是谷歌搜索||=并不是很有帮助;)Python中是否有与Ruby和Perl中的||=语句等效的语句?例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外,类似这样的东西的通用术语是什么?条件分配是我的第一个猜测,但Wikipediapage跟我想的不太一样。

  4. java - 什么相当于 ruby​​ 的 rack 或 python 的 Java wsgi? - 2

    什么是ruby​​的rack或python的Java的wsgi?还有一个路由库。 最佳答案 来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht

  5. 华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2

    华为OD机试题本篇题目:明明的随机数题目输入描述输出描述:示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od,od薪资待遇,od机试题清单华为OD机试真题大全,用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o

  6. python - 如何读取 MIDI 文件、更改其乐器并将其写回? - 2

    我想解析一个已经存在的.mid文件,改变它的乐器,例如从“acousticgrandpiano”到“violin”,然后将它保存回去或作为另一个.mid文件。根据我在文档中看到的内容,该乐器通过program_change或patch_change指令进行了更改,但我找不到任何在已经存在的MIDI文件中执行此操作的库.他们似乎都只支持从头开始创建的MIDI文件。 最佳答案 MIDIpackage会为您完成此操作,但具体方法取决于midi文件的原始内容。一个MIDI文件由一个或多个音轨组成,每个音轨是十六个channel中任何一个上的

  7. 「Python|Selenium|场景案例」如何定位iframe中的元素? - 2

    本文主要介绍在使用Selenium进行自动化测试或者任务时,对于使用了iframe的页面,如何定位iframe中的元素文章目录场景描述解决方案具体代码场景描述当我们在使用Selenium进行自动化测试的时候,可能会遇到一些界面或者窗体是使用HTML的iframe标签进行承载的。对于iframe中的标签,如果直接查找是无法找到的,会抛出没有找到元素的异常。比如近在咫尺的例子就是,CSDN的登录窗体就是使用的iframe,大家可以尝试通过F12开发者模式查看到的tag_name,class_name,id或者xpath来定位中的页面元素,会抛出NoSuchElementException异常。解决

  8. 计算机毕业设计ssm+vue基本微信小程序的小学生兴趣延时班预约小程序 - 2

    项目介绍随着我国经济迅速发展,人们对手机的需求越来越大,各种手机软件也都在被广泛应用,但是对于手机进行数据信息管理,对于手机的各种软件也是备受用户的喜爱小学生兴趣延时班预约小程序的设计与开发被用户普遍使用,为方便用户能够可以随时进行小学生兴趣延时班预约小程序的设计与开发的数据信息管理,特开发了小程序的设计与开发的管理系统。小学生兴趣延时班预约小程序的设计与开发的开发利用现有的成熟技术参考,以源代码为模板,分析功能调整与小学生兴趣延时班预约小程序的设计与开发的实际需求相结合,讨论了小学生兴趣延时班预约小程序的设计与开发的使用。开发环境开发说明:前端使用微信微信小程序开发工具:后端使用ssm:VU

  9. python ffmpeg 使用 pyav 转换 一组图像 到 视频 - 2

    2022/8/4更新支持加入水印水印必须包含透明图像,并且水印图像大小要等于原图像的大小pythonconvert_image_to_video.py-f30-mwatermark.pngim_dirout.mkv2022/6/21更新让命令行参数更加易用新的命令行使用方法pythonconvert_image_to_video.py-f30im_dirout.mkvFFMPEG命令行转换一组JPG图像到视频时,是将这组图像视为MJPG流。我需要转换一组PNG图像到视频,FFMPEG就不认了。pyav内置了ffmpeg库,不需要系统带有ffmpeg工具因此我使用ffmpeg的python包装p

  10. Python 刷Leetcode题库,顺带学英语单词(31) - 2

    ValidPalindromeGivenastring,determineifitisapalindrome,consideringonlyalphanumericcharactersandignoringcases. [#125]Example:"Aman,aplan,acanal:Panama"isapalindrome."raceacar"isnotapalindrome.Haveyouconsiderthatthestringmightbeempty?Thisisagoodquestiontoaskduringaninterview.Forthepurposeofthisproblem

随机推荐