草庐IT

MiniGPT4,开源了。

Jack-Cui 2024-04-21 原文

大家好,我是 Jack。

 

一个月前,我发布过一篇文章,讲解了 GPT4 的发布会。

ChatGPT 的对话能力,想必大家也早已体验过了,无论是文本生成能力,还是写代码的能力,甚至是上下文的关联对话能力,无不一次又一次地震撼着我们。

你还记不记得发布会上,GPT4 的多模态能力,就是输入不仅是可以是文字,还可以是文本和图片。

输入:(看图)手套掉下去会怎样?

输出:它会掉到木板上,并且球会被弹飞。

 甚至画个网站的草图,GPT4 就可以立马生成网站的 HTML 代码。

然而,已经过去一个多月了!OpenAI 至今也没有提供发布会所展示的多模态处理能力!

原本以为还要再等几个月的官方更新,才能体验上这个功能,没想到,我看到了这么一个项目。

该项目名为 MiniGPT-4,是阿卜杜拉国王科技大学的几位博士做的。

最主要的是,完全开源!比如,描述一下这张图片:

 帮忙写个广告语:

可以看到,MiniGPT-4 能够支持文本和图片的输入,实现了多模态的输入功能。

GitHub:https://github.com/Vision-CAIR/MiniGPT-4

在线体验:https://minigpt-4.github.io

作者还提供了网页 Demo,可以直接体验:

MiniGPT-4 是在一些开源大模型基础上训练得到的,fine tune 分为两个阶段,先是在 4 个 A100 上用 500 万图文对训练,然后再用一个一个小的高质量数据集训练,单卡 A100 训练只需要 7 分钟。

不过目前使用的人数较多,可以错峰使用,或者本地部署一个服务。

本地部署也不复杂,根据官方教程直接配置环境:

git clone https://github.com/Vision-CAIR/MiniGPT-4.git
cd MiniGPT-4
conda env create -f environment.yml
conda activate minigpt4

然后下载预训练模型:

输入指令直接运行:

python demo.py --cfg-path eval_configs/minigpt4_eval.yaml

这个过程需要保证有网络,需要下载一些 BLIP 之类的依赖库。

相信不久的将来,不仅仅是可以多模态输入,还可以多模态输出。

我们可以输入:文本、图像、音频、视频

AI 就能根据我们的需求,生成我们需要的文本、图像、音频、甚至是视频。

一起期待一下吧~


最后再送大家一本,帮助我拿到 BAT 等一线大厂 offer 的数据结构刷题笔记,是一位 Google 大神写的,对于算法薄弱或者需要提高的同学都十分受用:

谷歌和BAT大佬的刷题笔记,看完秒杀80%的算法题!

以及我整理的 BAT 算法工程师学习路线,书籍+视频,完整的学习路线和说明,对于想成为算法工程师的,绝对能有所帮助:

我是如何成为算法工程师的,超详细的学习路线

别光收藏,来个赞哦,笔芯~

有关MiniGPT4,开源了。的更多相关文章

  1. python - 开源 Twitter 克隆(在 Ruby/Python 中) - 2

    关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭6年前。Improvethisquestion是否有任何用Ruby或Python编写的生产就绪的开源Twitter克隆?我对功能丰富的实现更感兴趣,而不仅仅是简单的Twitter消息(例如:API、FBconnect、通知等)谢谢!

  2. Gradle 自动化构建开源工具 - 2

    文章目录写在前面1、下载与安装(windows)1.1、idea中配置gradle2、基础知识(Gradle6.9为例)2.1、Gradle脚本语法2.1.1、dependsOn2.1.2、创建动态任务2.1.3、增加任务行为2.1.4、参数2.1.5、Ant任务2.1.6、方法2.1.7、默认任务2.1.6、依赖任务的不同输出3、java项目中使用3.1、在已有项目中构建gradle3.2、在新建项目时构建gradle(idea)3.3、gradle项目目录结构3.4、build.gradle3.4.1、plugins3.4.2、repositories3.4.3、dependencies3

  3. 停车系统源码-基于springboot+uniapp开源项目 - 2

    Iparking停车收费管理系统-可商用介绍Iparking是一款基于springBoot的停车收费管理系统,支持封闭车场和路边车场,支持微信支付宝多种支付渠道,支持多种硬件,涵盖了停车场管理系统的所有基础功能。技术栈Springboot,MybatisPlus,Beetl,Mysql,Redis,RabbitMQ,UniApp功能云端功能序号模块功能描述1系统管理菜单管理配置系统菜单2系统管理组织管理管理组织机构3系统管理角色管理配置系统角色,包含数据权限和功能权限配置4系统管理用户管理管理后台用户5系统管理租户管理多租户管理6系统管理公众号配置租户公众号配置7系统管理操作日志审计日志8系统

  4. ruby-on-rails - 有没有很好的引用(开源)Rails NoSQL应用程序? - 2

    我有兴趣了解使用nosql将如何影响rails应用程序的架构/设计/代码。有人知道使用nosql持久性的开源rails应用程序的一个好例子吗?谢谢 最佳答案 看看这些项目:卡桑德拉用法atDigg。卡桑德拉用法atTwitter。Friendly用法atFetLife(nsfw)。最后,MyNoSQL是一个提供nosql相关信息的好网站。 关于ruby-on-rails-有没有很好的引用(开源)RailsNoSQL应用程序?,我们在StackOverflow上找到一个类似的问题:

  5. ruby-on-rails - 请向我推荐一些需要编写文档/测试的 rails/ruby 开源代码 - 2

    关闭。这个问题不符合StackOverflowguidelines。它目前不接受答案。要求我们推荐或查找书籍、工具、软件库、教程或其他场外资源的问题对于StackOverflow来说是偏离主题的,因为它们往往会吸引自以为是的答案和垃圾邮件。相反,请描述问题以及迄今为止为解决该问题所做的工作。关闭8年前。Improvethisquestion在过去的4个月左右的时间里,我一直在使用ruby​​onrails,我真的很喜欢开源的整个概念。我知道它不是ruby​​/rails独有的,但来自Windows编程,这是我第一次真正接触它。我想尽我所能“回馈”,但我觉得我无法贡献任何有值(value

  6. ruby-on-rails - 我如何找到可以贡献的开源项目(Ruby、Rails) - 2

    关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭7年前。Improvethisquestion我是一名RubyonRails开发人员,手头有一些时间。我想利用这段时间通过为开源项目做贡献来回馈和学习。我不是一流的程序员,想从小做起。在哪里可以找到Ruby或Rails中的小型开源项目?我该如何贡献?亚历克斯

  7. 都已经那么卷了,用户还需要开源的 API 管理工具么 - 2

    关于API管理工具,如今的市场已经把用户教育的差不多了,毫不夸张地说,如果我随机抽取一位幸运读者,他都能给我罗列出一二三四款大家耳熟能详的工具。可说到开源的API管理工具,大家又能知道多少呢?我们是否真的需要开源的API管理工具?我的回答是肯定的,百花齐放才是健康的生态,除了商业,应该得有开源的产品,因为开源的API具有这些优势:免费:开源API管理工具通常是免费的,这可以帮助小公司和个人开发者降低开发成本,快速构建自己的API服务。开放方式:开源工具通常是开放和透明的,用户可以查看和修改源代码,并且能够在社区中共享和交流,这使得开源工具更加灵活和可定制。社区支持:开源API管理工具通常有一个

  8. ruby - 开源Ruby项目 - 2

    Asitcurrentlystands,thisquestionisnotagoodfitforourQ&Aformat.Weexpectanswerstobesupportedbyfacts,references,orexpertise,butthisquestionwilllikelysolicitdebate,arguments,polling,orextendeddiscussion.Ifyoufeelthatthisquestioncanbeimprovedandpossiblyreopened,visitthehelpcenter提供指导。已关闭8年。我最近才开始学习Rub

  9. javascript - 开源客户端基于 JavaScript 的 2D 数据绘图? - 2

    我想知道是否有任何使用JavaScript在客户端运行的二维图形绘制库?基本思想是您可以在浏览器中放置一个绘图,用户可以更改X和Y比例和限制、放大和缩小等内容,而无需不断地从服务器重新加载网页。数据本身将通过AJAX获取,如果用户想使用重型工具,这将允许用户直接从服务器wget获取数据。类似于Python的matplotlib的2D部分。这是我很久以前看过的东西,然后决定开发一些只在服务器端生成SVG的代码(使用内置的eCos网络服务器)会更快,但现在我'我一直在阅读Prototype和jQuery之类的东西,我想知道是否有人已经这样做了。 最佳答案

  10. 中国BI,敢于开源 - 2

    英文的不适用从系统级到应用层面,都有各种各样开源软件供开发者使用,比如LinuxAndroidMysqlPostgreSQLHadoopApacheTamcatBirt等,在国内都很流行然而,BI似乎是个例外,在国内还很难找到一个使用比较广泛的的开源产品其实国外的开源BI也很多,比如SupersetGrafanaMetabaseRedash,这些都是在GitHub上排名靠前的开源BI,功能和外观都做的不错,并且很受国外用户的欢迎。但是,这些东西在中文世界却很难用得起来,因为很多人被英文给劝退了。英文文档不全,会增加学习和使用的成本,更重要的原因是BI是一个界面为主导的软件,不像其他开源代码以功

随机推荐