草庐IT

关于AI记忆系统的研究

Penrose0v0 2024-03-13 原文

前言

前些日子我用ChatGPT和OpenAI提供的GPT-3 API做了一些实验。在实验的过程中我注意到,虽然ChatGPT可以记忆之前的对话内容,但其机制十分简单直白:

在发送一个新的prompt的时候,程序会将之前的所有的对话打包起来,然后添加到prompt之前。

这将导致单次prompt会随着对话的进行而变得越来越长,直至极限。即使没有极限,成本也会越来越大,直至难以接受。

也就是说,以目前的记忆方式,AI只能进行短期记忆,而无法进行长期记忆。于是我设计了一个可以让AI低成本地进行长期记忆的方法。

设计思路

不难看出,单次prompt可以被视作“背景条件”和“当前对话”两个部分。既然单次prompt的容量是有限的,那么只要让“背景条件”的部分尽可能和“当前对话”有关即可。

因此,我需要设计一个模型,使得AI会遗忘与“当前对话”无关的内容,并回忆起与“当前对话”有关的内容。

模型

  1. 记忆容器

    人格记忆容器:

    保存永久出现在prompt中的记忆。该容器包含了AI的语气、人设等信息,因为会一直占着“背景条件”的一部分容量,所以要尽可能精简。

    短期记忆容器:

    保存目前出现在prompt中的记忆。若该容器中某内容与当前对话无关,需将其转移到长期记忆容器中。

    长期记忆容器:

    保存还未出现在prompt中的记忆。若该容器中某内容与当前对话有关,需将其转移到短期记忆容器中。

    遗忘记忆容器:

    保存此回合即将被遗忘的短期记忆。属于短期记忆过渡到长期记忆的中间容器。

    此外,所有短期记忆与长期记忆组合起来称为所有记忆。

  2. 相关值与遗忘值

    相关值 R:用来衡量两个句子的相关性

    当判断两个句子是否相关时,我第一反应想到的是两句是否包含相同的关键字词,于是可以得到:当两个句子相同的字词越多时,这两句就越相关。

    然而,一句句子中,常见的虚词、代词所占的比重可能会比关键词所占的比重大很多,而且这类常见字词可能在几乎所有句子里都有出现,所以在定义R值时,需要将这些字词的比重降低。

    同时,我们不知道关键字词有多少字,但先不妨假设这个关键字词只有一个字,那么我们可以先得出一个简单的公式:
    B 句对于 A 句的相关性 R = ∑ 对 A 句的每个字 f ( B 句是否有这个字 ) g ( 该字在所有句子中的出现率 ) B句对于A句的相关性R=\sum_{对A句的每个字}{f(B句是否有这个字)\over g(该字在所有句子中的出现率)} B句对于A句的相关性R=A句的每个字g(该字在所有句子中的出现率)f(B句是否有这个字)
    可以看到,当A中的某个字在所有句子中的出现率过大时,这个字对两句相关性的影响力将会减弱。

    接着,利用上述公式计算某记忆与当前对话的相关值,并将值映射到 ( 0 , 1 ) (0, 1) (0,1)区间。记:某记忆 M x = { c 1 , c 2 , . . . , c m } M_x=\lbrace c_1, c_2, ..., c_m\rbrace Mx={c1,c2,...,cm},当前对话 P = { p 1 , p 2 , . . . , p n } P=\lbrace p_1, p_2, ..., p_n\rbrace P={p1,p2,...,pn},所有记忆 S = { M 1 , M 2 , . . . , M s } S=\lbrace M_1, M_2, ..., M_s\rbrace S={M1,M2,...,Ms},且 M x ∈ S M_x\in S MxS。于是可得:
    R ( P , M x , S ) = s i g m o i d [ r ( P , M x , S ) ] R(P, M_x, S) = sigmoid[r(P, M_x, S)] R(P,Mx,S)=sigmoid[r(P,Mx,S)]
    其中:
    r ( P , M x , S ) = ∑ i = 1 n s i g n ( p i , M x ) × ( m ∑ j = 1 s s i g n ( p i , M j ) − 1 ) s i g n ( p i , M x ) = { 1 ,   i f    p i    i n    M x 0 ,   i f    p i    n o t    i n    M x s i g m o i d ( x ) = 1 1 + e − x r(P, M_x, S) = \sum_{i=1}^n{sign(p_i, M_x)\times({m\over{\sum_{j=1}^s{sign(p_i, M_j)}}}-1)} \\\\ sign(p_i, M_x) = \begin{cases} 1,\,if\,\,p_i\,\,in\,\,M_x\\ 0,\,if\,\,p_i\,\,not\,\,in\,\,M_x\\ \end{cases} \\\\ sigmoid(x) = {1\over1+e^{-x}} r(P,Mx,S)=i=1nsign(pi,Mx)×(j=1ssign(pi,Mj)m1)sign(pi,Mx)={1,ifpiinMx0,ifpinotinMxsigmoid(x)=1+ex1
    然而,普遍情况下关键字词一般都由2、3个字组成,且通常来看,如果A句和B句拥有相同的多字词语,而A句和C句仅仅拥有相同的单字,那么显然B句相比于C句,与A句的相关性更大。因此,需要对上面的公式进行稍微的修改,降低拥有相同单字时的比重,同时加大拥有相同多字时的比重,且字数越多,比重越大。

    记:最大关键词字数为 A A A,当前对话 P = { p 1 , p 2 , . . . , p n } = p 1 p n ^ P=\lbrace p_1, p_2, ..., p_n\rbrace=\widehat{p_1p_n} P={p1,p2,...,pn}=p1pn ,例如:“你吃了吗”中, p 2 p 3 ^ = \widehat{p_2p_3}= p2p3 =“吃了”。可得:
    R ( P , M x , S , A ) = s i g m o i d [ r ( P , M x , S , A ) ] r ( P , M x , S , A ) = ∑ a = 1 A − 1 [ ∑ i = a n s i g n ( p i − a p i ^ , M x ) × ( m [ ∑ j = 1 s s i g n ( p i − a p i ^ , M j ) ] A − a − 1 ) ] R(P, M_x, S, A) = sigmoid[r(P, M_x, S, A)] \\\\ r(P, M_x, S, A) = \sum_{a=1}^{A-1}[{\sum_{i=a}^n{sign(\widehat{p_{i-a}p_i}, M_x)\times({m\over{[\sum_{j=1}^s{sign(\widehat{p_{i-a}p_i}, M_j)}}]^{A-a}}-1)}}] R(P,Mx,S,A)=sigmoid[r(P,Mx,S,A)]r(P,Mx,S,A)=a=1A1[i=ansign(piapi ,Mx)×([j=1ssign(piapi ,Mj)]Aam1)]

    遗忘值 F:用来判断是否该遗忘某记忆

    在短期记忆容器中,每条记忆都会有一个遗忘值,并且在每一轮对话结束时更新。当遗忘值超过临界时,记忆将会被转移到长期记忆中。

    遗忘值的更新基于该记忆与当前对话的相关值,若相关值大于某一标准,则遗忘值将减小,反之则增大。

    R R R为当前记忆与当前对话的相关值, R ^ \widehat R R 为标准,则第n次对话时,当前记忆的遗忘值为:
    F n ( R ) = ∑ i = 1 n Δ F i ( R ) F_n(R)=\sum_{i=1}^n\Delta F_i(R) Fn(R)=i=1nΔFi(R)
    其中:
    Δ F n ( R ) = t a n h ( R ^ − R ) t a n h ( x ) = e x − e − x e x + e − x \Delta F_n(R)=tanh(\widehat R-R) \\\\ tanh(x)={e^x-e^{-x}\over e^x+e^{-x}} ΔFn(R)=tanh(R R)tanh(x)=ex+exexex

流程

  1. 设立阈值 R 0 ∈ ( 0 , 1 ) R_0\in(0,1) R0(0,1) F 0 ∈ ( R 0 , + ∞ ) F_0\in(R_0,+\infin) F0(R0,+),其中, R 0 R_0 R0越低越容易回忆, F 0 F_0 F0越低越容易忘记。
  2. 遍历短期记忆容器,更新每条记忆的 F F F值。若 F ≥ F 0 F\geq F_0 FF0,则转移至遗忘记忆容器。
  3. 遍历长期记忆容器,给每条记忆一个 R R R值。若 R ≥ R 0 R\geq R_0 RR0,则给出初始 F F F值并转移至短期记忆容器。
  4. 将遗忘记忆容器中的所有记忆转移至长期记忆容器,并清空。

可能的改进方向

当某一话题重复多次后,未来回忆起该话题的可能性将会被降低。解决这个问题可能需要对长期记忆容器进行调整,减少记忆中相同、重复的话题数量。

有关关于AI记忆系统的研究的更多相关文章

  1. 电脑0x0000001A蓝屏错误怎么U盘重装系统教学 - 2

      电脑0x0000001A蓝屏错误怎么U盘重装系统教学分享。有用户电脑开机之后遇到了系统蓝屏的情况。系统蓝屏问题很多时候都是系统bug,只有通过重装系统来进行解决。那么蓝屏问题如何通过U盘重装新系统来解决呢?来看看以下的详细操作方法教学吧。  准备工作:  1、U盘一个(尽量使用8G以上的U盘)。  2、一台正常联网可使用的电脑。  3、ghost或ISO系统镜像文件(Win10系统下载_Win10专业版_windows10正式版下载-系统之家)。  4、在本页面下载U盘启动盘制作工具:系统之家U盘启动工具。  U盘启动盘制作步骤:  注意:制作期间,U盘会被格式化,因此U盘中的重要文件请注

  2. 【鸿蒙应用开发系列】- 获取系统设备信息以及版本API兼容调用方式 - 2

    在应用开发中,有时候我们需要获取系统的设备信息,用于数据上报和行为分析。那在鸿蒙系统中,我们应该怎么去获取设备的系统信息呢,比如说获取手机的系统版本号、手机的制造商、手机型号等数据。1、获取方式这里分为两种情况,一种是设备信息的获取,一种是系统信息的获取。1.1、获取设备信息获取设备信息,鸿蒙的SDK包为我们提供了DeviceInfo类,通过该类的一些静态方法,可以获取设备信息,DeviceInfo类的包路径为:ohos.system.DeviceInfo.具体的方法如下:ModifierandTypeMethodDescriptionstatic StringgetAbiList​()Obt

  3. kvm虚拟机安装centos7基于ubuntu20.04系统 - 2

    需求:要创建虚拟机,就需要给他提供一个虚拟的磁盘,我们就在/opt目录下创建一个10G大小的raw格式的虚拟磁盘CentOS-7-x86_64.raw命令格式:qemu-imgcreate-f磁盘格式磁盘名称磁盘大小qemu-imgcreate-f磁盘格式-o?1.创建磁盘qemu-imgcreate-fraw/opt/CentOS-7-x86_64.raw10G执行效果#ls/opt/CentOS-7-x86_64.raw2.安装虚拟机使用virt-install命令,基于我们提供的系统镜像和虚拟磁盘来创建一个虚拟机,另外在创建虚拟机之前,提前打开vnc客户端,在创建虚拟机的时候,通过vnc

  4. ruby - 在没有基准或时间的情况下用 Ruby 测量用户时间或系统时间 - 2

    因为我现在正在做一些时间测量,我想知道是否可以在不使用Benchmark类或命令行实用程序time的情况下测量用户时间或系统时间。使用Time类只显示挂钟时间,而不显示系统和用户时间,但是我正在寻找具有相同灵active的解决方案,例如time=TimeUtility.now#somecodeuser,system,real=TimeUtility.now-time原因是我有点不喜欢Benchmark,因为它不能只返回数字(编辑:我错了-它可以。请参阅下面的答案。)。当然,我可以解析输出,但感觉不对。*NIX系统的time实用程序也应该可以解决我的问题,但我想知道是否已经在Ruby中实

  5. ruby - 以毫秒为单位获取当前系统时间 - 2

    在Ruby中,以毫秒为单位获取自纪元(1970)以来的当前系统时间的正确方法是什么?我试过了Time.now.to_i,好像不是我想要的结果。我需要结果显示毫秒并且使用long类型,而不是float或double。 最佳答案 (Time.now.to_f*1000).to_iTime.now.to_f显示包含十进制数字的时间。要获得毫秒数,只需将时间乘以1000。 关于ruby-以毫秒为单位获取当前系统时间,我们在StackOverflow上找到一个类似的问题:

  6. ruby-on-rails - 关于 Ruby 的一般问题 - 2

    我在我的rails应用程序中安装了来自github.com的acts_as_versioned插件,但有一段代码我不完全理解,我希望有人能帮我解决这个问题class_eval我知道block内的方法(或任何它是什么)被定义为类内的实例方法,但我在插件的任何地方都找不到定义为常量的CLASS_METHODS,而且我也不确定是什么here,并且有问题的代码从lib/acts_as_versioned.rb的第199行开始。如果有人愿意告诉我这里的内幕,我将不胜感激。谢谢-C 最佳答案 这是一个异端。http://en.wikipedia

  7. ruby-on-rails - 如何构建复杂的 Rails 系统 - 2

    关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭8年前。Improvethisquestion我们有以下(以及更多)系统,我们将数据从一个应用推送/拉取到另一个:托管CRM(InsideSales.com)Asterisk电话系统(内部)横幅广告系统(openx,我们托管)潜在客户生成系统(自行开发)电子商务商店(spree,我们托管)工作板(本土)一些工作网站抓取+入站工作提要电子邮件传送系统(如Mailchimp,自主开发)事件管理系统(如eventbrite,自主开发)仪表板系统(大量图表和

  8. ruby-on-rails - Rails 3,在RAILS_ROOT上方显示来自本地文件系统的jpg图片 - 2

    我正在尝试找出一种方法来显示来自不在RAILS_ROOT下(在RedHat或Ubuntu环境中)的已安装文件系统的图像。我不想使用符号链接(symboliclink),因为这个应用程序实际上是通过Tomcat部署的,而当我关闭Tomcat时,Tomcat会尝试跟随符号链接(symboliclink)并删除挂载中的所有图像。由于这些文件的数量和大小,将图像放在public/images下也不是一种选择。我查看了send_file,但它只会显示一张图片。我需要在一个格式良好的页面中显示6个请求的图像。由于膨胀,我宁愿不使用Base64编码,但我不知道如何将图像数据与呈现的页面一起传递下去。

  9. ruby - 我怎样才能更好地了解/了解更多关于 Ruby 的知识? - 2

    按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visitthehelpcenter指导。关闭9年前。我最近开始学习Ruby,这是我的第一门编程语言。我对语法感到满意,并且我已经完成了许多只教授相同基础知识的教程。我已经写了一些小程序(包括我自己的数组排序方法,在有人告诉我谷歌“冒泡排序”之前我认为它非常聪明),但我觉得我需要尝试更大更难的东西来理解更多关于Ruby.关于如何执行此操作的任何想法?

  10. ruby - 我可以从 Ruby 中的系统调用中获得连续输出吗? - 2

    当您在Ruby脚本中使用系统调用时,您可以像这样获得该命令的输出:output=`ls`putsoutput这就是thisquestion是关于。但是有没有办法显示系统调用的连续输出?例如,如果您运行此安全复制命令,以通过SSH从服务器获取文件:scpuser@someserver:remoteFile/some/local/folder/...它显示随着下载进度的连续输出。但是这个:output=`scpuser@someserver:remoteFile/some/local/folder/`putsoutput...不捕获该输出。如何从我的Ruby脚本中显示正在进行的下载进度?

随机推荐