草庐IT

向量检索(一)Faiss 在工业界的应用和常见问题解决

一、向量检索的场景传统的搜索,使用关键做精确的查找,利用倒排索引在索引库中搜索。日常在用的百度,Google都属于关键词搜索。在AI时代,我们需要查找一张相似的图片,一个问题的答案,或者根据一段音乐查找对应的歌曲,这些情况下没有准确的关键词用来做检索。这些图片,问题(文本),语音,不再是简单的一个一维量化的数字,而是包含了大量的属性特征。因而不合适使用传统的关键字搜索引擎来查找。对于文本,图片,语音,视频,DNA信息等等,都可以用向量来表示,数据被特征化处理后,用来表示这条数据的向量称之为Embedding。比如IloveChina,andIlovetheworld.这一句话,假设在特定的语料

向量数据库入坑指南:初识 Faiss,如何将数据转换为向量(一)

我们日常使用的各种APP中的许多功能,都离不开相似度检索技术。比如一个接一个的新闻和视频推荐、各种常见的对话机器人、保护我们日常账号安全的风控系统、能够用哼唱来找到歌曲的听歌识曲,甚至就连外卖配送的最佳路线选择也都有着它的身影。相信很多同学是第一次听说它,或者只知道它的大名,而不知该如何使用它。本篇文章,我们就来聊聊faiss,分享这个“黑科技”是如何发挥神奇的“魔法”的。写在前面faiss是相似度检索方案中的佼佼者,是来自MetaAI(原FacebookResearch)的开源项目[1],也是目前最流行的、效率比较高的相似度检索方案之一。虽然它和相似度检索这门技术颇受欢迎,在出现在了各种我们

对句子分词,找到对应词的腾讯词向量模型并使用Python进行faiss检索

目录一、下载腾讯的词向量二、停用词三、代码部分    3.1、代码思想四、输出结果        本文主要是将句子分词转向量,再加总词向量求平均变为句子向量。接着再存储到faiss中。等待新句子到来,同样按照上述方法处理。达到在faiss能检索出相似的向量。一、下载腾讯的词向量    下载后放到一个地方,待会代码部分需要使用。下载地址:  EmbeddingDataset--NLPCenter,TencentAILab    二、停用词   可以上网查找一些停用词表,或者自己定义一个stop_words.txt。同样代码部分需要使用。          三、代码部分    3.1、代码思想  

Faiss安装之问题重重

由于某种原因,我需要使用gpu版本的faiss(faiss-gpu),查阅一下资料,好像要先把cpu版本的安装包(faiss-cpu)卸载,于是乎,一顿操作猛如虎,几秒钟就卸载了faiss-cpu,但是,我却花了几个钟头安装faiss-gpu,那问题奇形怪状的呀,特此记录一下曲折历程。1、安装faiss-gpu说实话,已经记不清到底出现了哪些安装问题了,只记得安装一下,飘红报错,网上查阅,再试一次,好嘛,还是失败,根据PycharmTerminal的记录简单记录一下出现了什么错误。我的安装命令:pipinstallfaiss-gpu之前安装faiss-cpu也是这么简洁的命令,是ok的第一次失

人工智能算法小白实战-你真的了解词向量吗?

作者:刘算法来源:恒生LIGHT云社区你真的了解词向量吗笔者在上一篇文章《自然语言处理工程化全景图解析》详细阐述了NLP工程化过程中常见的技术环节。这篇文章将基于其中常见的一个技术点:词向量展开讨论,希望对读者今后的学习和实践有一定的指导意义。文章将从词向量的应用场景,词向量的训练,词向量的加载和代码实践4个环节展开描述。一、词向量有哪些常见应用1、自然语言的数学表达词向量的存在完美的实现了自然语言中文字向数学表达的转变,不同维度的词向量可以充分刻画词语的含义,让词语与词语之间的计算成为可能。以下代码描述了常见词汇的词向量数学表达及词向量维度:词语的数学表达:语句的数学表达:2、相似词与相对词

人工智能算法小白实战-你真的了解词向量吗?

作者:刘算法来源:恒生LIGHT云社区你真的了解词向量吗笔者在上一篇文章《自然语言处理工程化全景图解析》详细阐述了NLP工程化过程中常见的技术环节。这篇文章将基于其中常见的一个技术点:词向量展开讨论,希望对读者今后的学习和实践有一定的指导意义。文章将从词向量的应用场景,词向量的训练,词向量的加载和代码实践4个环节展开描述。一、词向量有哪些常见应用1、自然语言的数学表达词向量的存在完美的实现了自然语言中文字向数学表达的转变,不同维度的词向量可以充分刻画词语的含义,让词语与词语之间的计算成为可能。以下代码描述了常见词汇的词向量数学表达及词向量维度:词语的数学表达:语句的数学表达:2、相似词与相对词
12