GPT4_草庐IT

杭电小哥抢先搞定GPT读图功能，单卡就能实现新SOTA，代码已开源

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。能读图的GPT-4震撼发布了！但要用它还得排队。。。不如先试试这个～加上一个小模型，就能让ChatGPT、GPT-3这类目前只能理解文本的大语言模型轻松读图，各种刁钻的细节问题都能手拿把掐。并且训练这个小模型单卡（一块RTX3090）就能搞定。效果呢，直接看图。比如说，给训练后的GPT-3输入一张“音乐现场”的图片，问它：现场在举办什么活动？毫不迟疑，GPT-3给出了音乐会的答案。再来加点难度，再给GPT-3酱紫的一张照片，让它来分辨照片中的帘子是什么类型的材质。GPT-3：蕾丝。Bingo！（看来是有点儿东西在身上的

小哥读图 strong style span 人工智能新闻 $AI 论文

杭电小哥抢先搞定GPT读图功能，单卡就能实现新SOTA，代码已开源

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。能读图的GPT-4震撼发布了！但要用它还得排队。。。不如先试试这个～加上一个小模型，就能让ChatGPT、GPT-3这类目前只能理解文本的大语言模型轻松读图，各种刁钻的细节问题都能手拿把掐。并且训练这个小模型单卡（一块RTX3090）就能搞定。效果呢，直接看图。比如说，给训练后的GPT-3输入一张“音乐现场”的图片，问它：现场在举办什么活动？毫不迟疑，GPT-3给出了音乐会的答案。再来加点难度，再给GPT-3酱紫的一张照片，让它来分辨照片中的帘子是什么类型的材质。GPT-3：蕾丝。Bingo！（看来是有点儿东西在身上的

小哥读图 strong style span 人工智能新闻 $AI 论文

GPT-4刚发布就有手机APP接入，上传照片视频一键解读，还当起了美版知乎的问答bot

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。GPT-4刚发布，就已经有手机应用接入了！只需要上传图像，再用语音提出需求，GPT-4就能帮助视障人士“看清”眼前的世界。随时随地，实时解读，就像聊天对话一样自然。例如想要换装，却不知道手里的衣服是什么颜色：只需要拍照上传给GPT-4，它很快就能将衣服纹理描述出来，材质、颜色和形状一清二楚：△翻译by有道在此之前，视障人士除了用手触摸以外，辨别物体往往需要依靠身边的人或是志愿者的帮助。有网友看到后赞叹：这是目前见过最令人惊叹的GPT-4应用之一！所以，加入了图像理解功能的GPT-4，究竟展现出了哪些能力？基于GPT-

问答 GPT style visibility data-type 人工智能新闻 $GPT-4 AI

GPT-4刚发布就有手机APP接入，上传照片视频一键解读，还当起了美版知乎的问答bot

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。GPT-4刚发布，就已经有手机应用接入了！只需要上传图像，再用语音提出需求，GPT-4就能帮助视障人士“看清”眼前的世界。随时随地，实时解读，就像聊天对话一样自然。例如想要换装，却不知道手里的衣服是什么颜色：只需要拍照上传给GPT-4，它很快就能将衣服纹理描述出来，材质、颜色和形状一清二楚：△翻译by有道在此之前，视障人士除了用手触摸以外，辨别物体往往需要依靠身边的人或是志愿者的帮助。有网友看到后赞叹：这是目前见过最令人惊叹的GPT-4应用之一！所以，加入了图像理解功能的GPT-4，究竟展现出了哪些能力？基于GPT-

问答 GPT style visibility data-type 人工智能新闻 $GPT-4 AI

GPT-4发布后，其他大模型怎么办？Yann LeCun：增强语言模型或许是条路

ChatGPT、GPT-4的火爆，让大型语言模型迎来了迄今为止的高光时刻。但下一步又该往何处去？YannLeCun最近参与的一项研究指出，增强语言模型或许是个极具潜力的方向。这是一篇综述文章，本文将简单介绍该论文的主要内容。研究背景大型语言模型极大地推动了自然语言处理的进步，相关技术造就了几个拥有数百万用户的产品，包括编码助手Copilot，谷歌搜索引擎以及最近大火的ChatGPT。将记忆与组合性功能相结合后，大型语言模型能够以超前的性能执行各种任务，如语言理解或条件和无条件文本生成，从而让更高带宽的人机交互成为现实。然而，大型语言模型依旧存在一些限制，妨碍其进行更广泛的部署。大型语言模型通常

许是 LeCun span font-size style 人工智能新闻 $模型 AI

GPT-4发布后，其他大模型怎么办？Yann LeCun：增强语言模型或许是条路

ChatGPT、GPT-4的火爆，让大型语言模型迎来了迄今为止的高光时刻。但下一步又该往何处去？YannLeCun最近参与的一项研究指出，增强语言模型或许是个极具潜力的方向。这是一篇综述文章，本文将简单介绍该论文的主要内容。研究背景大型语言模型极大地推动了自然语言处理的进步，相关技术造就了几个拥有数百万用户的产品，包括编码助手Copilot，谷歌搜索引擎以及最近大火的ChatGPT。将记忆与组合性功能相结合后，大型语言模型能够以超前的性能执行各种任务，如语言理解或条件和无条件文本生成，从而让更高带宽的人机交互成为现实。然而，大型语言模型依旧存在一些限制，妨碍其进行更广泛的部署。大型语言模型通常

许是 LeCun span font-size style 人工智能新闻 $模型 AI

斯坦福“草泥马”火了：100美元就能比肩GPT-3.5！手机都能运行的那种

一夜之间，大模型界又炸出个bignews！斯坦福发布Alpaca（羊驼，网友口中的“草泥马”）：只花100美元，人人都可微调Meta家70亿参数的LLaMA大模型，效果竟可比肩1750亿参数的GPT-3.5（text-davinci-003）。而且还是单卡就能运行的那种，甚至树莓派、手机都能hold住！还有一个更绝的“骚操作”。研究所涉及到的数据集，是斯坦福团队花了不到500美元用OpenAI的API来生成的。所以整个过程下来，就等同于GPT-3.5自己教出了个旗鼓相当的对手AI。然后团队还说，用大多数云计算平台去微调训练好的模型，成本也不到100美元：复制一个GPT-3.5效果的AI，很便宜

斯坦比肩 visibility data-type style 人工智能 $代码 AI 绘画

斯坦福“草泥马”火了：100美元就能比肩GPT-3.5！手机都能运行的那种

一夜之间，大模型界又炸出个bignews！斯坦福发布Alpaca（羊驼，网友口中的“草泥马”）：只花100美元，人人都可微调Meta家70亿参数的LLaMA大模型，效果竟可比肩1750亿参数的GPT-3.5（text-davinci-003）。而且还是单卡就能运行的那种，甚至树莓派、手机都能hold住！还有一个更绝的“骚操作”。研究所涉及到的数据集，是斯坦福团队花了不到500美元用OpenAI的API来生成的。所以整个过程下来，就等同于GPT-3.5自己教出了个旗鼓相当的对手AI。然后团队还说，用大多数云计算平台去微调训练好的模型，成本也不到100美元：复制一个GPT-3.5效果的AI，很便宜

斯坦比肩 visibility data-type style 人工智能 $代码 AI 绘画

GPT-3解数学题准确率升至92.5%！微软提出MathPrompter，无需微调即可打造「理科」语言模型

大型语言模型最为人诟病的缺点，除了一本正经地胡言乱语以外，估计就是「不会算数」了。比如一个需要多步推理的复杂数学问题，语言模型通常都无法给出正确答案，即便有「思维链」技术的加持，往往中间步骤也会出错。与文科类的自然语言理解任务不同，数学问题通常只有一个正确答案，在不那么开放的答案范围下，使得生成准确解的任务对大型语言模型来说更具挑战性。并且，在数学问题上，现有的语言模型通常不会对自己的答案提供置信度（confidence），让用户无从判断生成答案的可信度。为了解决这个问题，微软研究院提出了MathPrompter技术，可以提高LLM在算术问题上的性能，同时增加对预测的依赖。论文链接：https

数学题准确率 span style font-size 人工智能新闻 $ChatGPT 数学

GPT-3解数学题准确率升至92.5%！微软提出MathPrompter，无需微调即可打造「理科」语言模型

大型语言模型最为人诟病的缺点，除了一本正经地胡言乱语以外，估计就是「不会算数」了。比如一个需要多步推理的复杂数学问题，语言模型通常都无法给出正确答案，即便有「思维链」技术的加持，往往中间步骤也会出错。与文科类的自然语言理解任务不同，数学问题通常只有一个正确答案，在不那么开放的答案范围下，使得生成准确解的任务对大型语言模型来说更具挑战性。并且，在数学问题上，现有的语言模型通常不会对自己的答案提供置信度（confidence），让用户无从判断生成答案的可信度。为了解决这个问题，微软研究院提出了MathPrompter技术，可以提高LLM在算术问题上的性能，同时增加对预测的依赖。论文链接：https

数学题准确率 span style font-size 人工智能新闻 $ChatGPT 数学