? 作者:韩信子@ShowMeAI
? 机器学习实战系列:https://www.showmeai.tech/tutorials/41
? 深度学习实战系列:https://www.showmeai.tech/tutorials/42
? 本文地址:https://www.showmeai.tech/article-detail/299
? 声明:版权所有,转载请联系平台与作者并注明出处
? 收藏ShowMeAI查看更多精彩内容
互联网发展的数十年来,技术在飞速前进,伴随着海量结构化表格数据的存储,结构化数据上的商业智能分析挖掘发展,也有海量的非结构化数据散布于各个互联网平台:
超过 80-90% 的数据是非结构化信息,例如文本、视频、音频、Web 服务器日志、社交媒体等
因为非结构化数据没有标准的行列结构,因此与结构化数据的存储和分析挖掘及查询都是截然不同的,我们没办法将非结构化数据的内容存储在关系数据库中,针对它们的应用有以下挑战:
为了让计算机理解、处理和表征非结构化数据,我们通常将它们转换为密集向量,通常称为嵌入。如上图所示。
近代的算法技术有很多神经网络的方法可以把非结构化数据表征为嵌入向量,例如卷积神经网络(CNN)可以对图像进行特征抽取与向量表示,而 LSTM 和 Transformer 等模型可以很方便地对文本数据进行向量化表征。
完成非结构化数据的表征仅仅是第1步,我们仅仅有这些嵌入向量是不够的,还需要能够查询和找出相似的向量。
大家在日常使用到的 APP 中,看到的很多多媒体智能应用都依赖于海量矢量数据中的相似性检索 AI 技术,包括百度和淘宝的视觉(图像)搜索/以图搜图、抖音视频的推荐系统、QQ音乐的听曲识歌等,也包括安防系统天眼等的人脸比对识别等。
海量向量数据的存储、管理和查询并不是一项简单的任务,我们会依赖专门的工具来完成这项工作,现代 AI 领域有非常好用的向量数据库,在本文中 ShowMeAI 将给大家详细介绍,主要覆盖以下几个方面:
刚才我们说到了,因为计算机只能理解和计算数值,我们要将图像和文本等非结构化数据表示为浮点数向量,它们表示相应的数据(图像、文本等)。
下列涉及到的 NLP 和 CV 模型技术,可以通过ShowMeAI的下述图解教程做更全面的学习:
在自然语言处理(NLP)领域,我们有许多词嵌入模型,例如 Word2Vec、GloVe 和 FastText ,它们可以帮助将词表示为数值向量。后来新技术的推进,我们有了强大的 ? Transformer 模型 ? BERT,它可以用来学习上下文嵌入向量以及对整个句子和段落的向量化表示。
在计算机视觉(CV)领域,我们有像 ? 卷积神经网络(CNN)的模型,它可以帮助从图像和视频中学习向量化表示。随着 Transformer 的兴起,我们也有了 ? Vision Transformers,有更好的视觉表征能力。
有了这些强大的向量表征方法,我们就可以利用它们来解决现实世界的问题,例如以图搜图,我们上传图片就可以检索返回视觉上相似图像检索结果。Google 的『以图搜图』是非常流行的应用,如下图所示。
你可以把每张图片想象成一个具有 D 维数的向量,我们可以使用『欧氏距离』或者其他距离度量(如『汉明距离』或『余弦距离』)来找出两个数据点(图片)之间的远近距离,可以量化地衡量2个样本的接近程度。例如,二维平面中两点之间的『欧氏距离』如下图所示。
矢量相似度搜索,也称为最近邻(NN)搜索,基本上是计算检索样本和现有(数据库中)样本集合中的样本距离,并返回前『k』个最近邻,也即前『k』个最相似的样本。计算这种相似度的关键部分是相似度度量,有不同的形式,包括欧氏距离、内积、余弦距离、汉明距离等。距离越小,我们认为2个向量越相似。
精确最近邻(NN)搜索是非常耗时的,每次都需要计算 N 个距离(假设有 N 个需要比对的数据库样本)才可以排序得到结果。
为了加快计算速度,我们通常利用近似最近邻搜索(ANN 搜索),它会以近似的方式来匹配和完成检索任务。典型的 ANN 索引方法包括:
所有这些提到的方法,都指向我们即将介绍的向量数据库,它是具备以上 ANN 的数据库实现,功能强大!
向量数据库是可扩展的数据平台,用于存储、索引和查询使用深度学习模型从非结构化数据(图像、文本等)生成的嵌入向量。最好和最先进的向量数据库,可以做到在数百万或数十亿个目标向量中插入、索引和搜索,并且可以选择和灵活配置索引算法和相似性度量方式。
如果是面向企业的健壮高效数据库系统,要同时具备以下关键要求:
向量数据库除了存储向量数据,还需要完成高效的数据索引构建,以便快速检索,还需要支持 CRUD(创建、读取、更新和删除)操作,以及支持属性过滤(即基于元数据字段/标量字段进行过滤)。
一个简单的例子是淘宝场景下,根据指定品牌的图像向量检索相似的鞋子,这里的品牌就是过滤的属性。
我们即将给大家介绍到 Milvus 向量数据库,上图展示了 Milvus 属性过滤的过程,Milvus 在过滤机制中引入了位掩码的概念,在满足特定属性过滤器的基础上,保留位掩码为 1 的相似向量。
? Milvus 是一个开源的向量数据库管理平台,专为海量向量数据和简化机器学习操作(MLOps)而构建。
Milvus 具有广泛的应用,包括药物发现、计算机视觉、推荐系统、聊天机器人等等。Milvus 包含以下特性和功能:
构建基于向量相似性搜索的 AI 系统,常见的工具库实现也都是基于近似最近邻搜索(ANNS)的,例如:
这些也都是一些可选用的向量数据检索库,但这些工具库相比于 Milvus 这样成熟的向量数据管理系统,有一些弱点和局限性。
? Milvus 针对上述问题优化,具备以下优势:
Milvus 的向量执行引擎 Knowhere 是一个操作接口,用于访问系统上层的服务和系统下层的Faiss、Hnswlib、Annoy 等向量相似度搜索库。此外,Knowhere 还负责异构计算。Knowhere 控制在哪些硬件(例如 CPU 或 GPU)上执行索引构建和搜索请求。这就是 Knowhere 得名的原因——知道在哪里执行操作。未来版本将支持更多类型的硬件,包括 DPU 和 TPU。
Milvus 中的计算主要涉及向量和标量运算。上图展示了 Milvus 中的 Knowhere 架构:
Knowhere 不仅进一步扩展了 Faiss 的功能,还优化了性能,支持 BitsetView、支持更多相似指标、支持 AVX512 指令集、自动 SIMD 指令选择。
上图展示了 ? Milvus平台的整体架构。Milvus 将数据流与控制流分离,分为四层,在可扩展性和容灾方面是独立的。
一个典型的应用是基于 Milvus 构建图像检索系统。开发者可以使用预训练的 AI 模型将自有图像数据集转换为向量,然后利用 Milvus 实现以图搜图功能,匹配和返回相似图片结果。如下为基于 Milvus 的『以图搜图』架构图。
数据处理流程部分可以结合开源框架 ? towhee,它利用像 ResNet-50 这样的预训练 CNN 模型,从图像中提取表征向量,再基于 Milvus 存储和索引这些向量,并将图像 ID 映射到 MySQL 数据库中的实际图片。Milvus 构建完索引后,可以轻松根据上传的新图像,进行大规模图像搜索。
下图为视觉图像搜索的示例图:
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
我有一个模型:classItem项目有一个属性“商店”基于存储的值,我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式?如果方法中没有大的if-else语句,这是如何干净利落地完成的? 最佳答案 通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.co
我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案 他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%
我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
为什么4.1%2返回0.0999999999999996?但是4.2%2==0.2。 最佳答案 参见此处:WhatEveryProgrammerShouldKnowAboutFloating-PointArithmetic实数是无限的。计算机使用的位数有限(今天是32位、64位)。因此计算机进行的浮点运算不能代表所有的实数。0.1是这些数字之一。请注意,这不是与Ruby相关的问题,而是与所有编程语言相关的问题,因为它来自计算机表示实数的方式。 关于ruby-为什么4.1%2使用Ruby返
它不等于主线程的binding,这个toplevel作用域是什么?此作用域与主线程中的binding有何不同?>ruby-e'putsTOPLEVEL_BINDING===binding'false 最佳答案 事实是,TOPLEVEL_BINDING始终引用Binding的预定义全局实例,而Kernel#binding创建的新实例>Binding每次封装当前执行上下文。在顶层,它们都包含相同的绑定(bind),但它们不是同一个对象,您无法使用==或===测试它们的绑定(bind)相等性。putsTOPLEVEL_BINDINGput
我可以得到Infinity和NaNn=9.0/0#=>Infinityn.class#=>Floatm=0/0.0#=>NaNm.class#=>Float但是当我想直接访问Infinity或NaN时:Infinity#=>uninitializedconstantInfinity(NameError)NaN#=>uninitializedconstantNaN(NameError)什么是Infinity和NaN?它们是对象、关键字还是其他东西? 最佳答案 您看到打印为Infinity和NaN的只是Float类的两个特殊实例的字符串
如果您尝试在Ruby中的nil对象上调用方法,则会出现NoMethodError异常并显示消息:"undefinedmethod‘...’fornil:NilClass"然而,有一个tryRails中的方法,如果它被发送到一个nil对象,它只返回nil:require'rubygems'require'active_support/all'nil.try(:nonexisting_method)#noNoMethodErrorexceptionanymore那么try如何在内部工作以防止该异常? 最佳答案 像Ruby中的所有其他对象
关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗?通过editingthispost添加细节并澄清问题.关闭8年前。Improvethisquestion为什么SecureRandom.uuid创建一个唯一的字符串?SecureRandom.uuid#=>"35cb4e30-54e1-49f9-b5ce-4134799eb2c0"SecureRandom.uuid方法创建的字符串从不重复?
我刚刚被困在这个问题上一段时间了。以这个基地为例:moduleTopclassTestendmoduleFooendend稍后,我可以通过这样做在Foo中定义扩展Test的类:moduleTopmoduleFooclassSomeTest但是,如果我尝试通过使用::指定模块来最小化缩进:moduleTop::FooclassFailure这失败了:NameError:uninitializedconstantTop::Foo::Test这是一个错误,还是仅仅是Ruby解析变量名的方式的逻辑结果? 最佳答案 Isthisabug,or