本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。能读图的GPT-4震撼发布了!但要用它还得排队。。。不如先试试这个~加上一个小模型,就能让ChatGPT、GPT-3这类目前只能理解文本的大语言模型轻松读图,各种刁钻的细节问题都能手拿把掐。并且训练这个小模型单卡(一块RTX3090)就能搞定。效果呢,直接看图。比如说,给训练后的GPT-3输入一张“音乐现场”的图片,问它:现场在举办什么活动?毫不迟疑,GPT-3给出了音乐会的答案。再来加点难度,再给GPT-3酱紫的一张照片,让它来分辨照片中的帘子是什么类型的材质。GPT-3:蕾丝。Bingo!(看来是有点儿东西在身上的
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。能读图的GPT-4震撼发布了!但要用它还得排队。。。不如先试试这个~加上一个小模型,就能让ChatGPT、GPT-3这类目前只能理解文本的大语言模型轻松读图,各种刁钻的细节问题都能手拿把掐。并且训练这个小模型单卡(一块RTX3090)就能搞定。效果呢,直接看图。比如说,给训练后的GPT-3输入一张“音乐现场”的图片,问它:现场在举办什么活动?毫不迟疑,GPT-3给出了音乐会的答案。再来加点难度,再给GPT-3酱紫的一张照片,让它来分辨照片中的帘子是什么类型的材质。GPT-3:蕾丝。Bingo!(看来是有点儿东西在身上的
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。GPT-4刚发布,就已经有手机应用接入了!只需要上传图像,再用语音提出需求,GPT-4就能帮助视障人士“看清”眼前的世界。随时随地,实时解读,就像聊天对话一样自然。例如想要换装,却不知道手里的衣服是什么颜色:只需要拍照上传给GPT-4,它很快就能将衣服纹理描述出来,材质、颜色和形状一清二楚:△翻译by有道在此之前,视障人士除了用手触摸以外,辨别物体往往需要依靠身边的人或是志愿者的帮助。有网友看到后赞叹:这是目前见过最令人惊叹的GPT-4应用之一!所以,加入了图像理解功能的GPT-4,究竟展现出了哪些能力?基于GPT-
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。GPT-4刚发布,就已经有手机应用接入了!只需要上传图像,再用语音提出需求,GPT-4就能帮助视障人士“看清”眼前的世界。随时随地,实时解读,就像聊天对话一样自然。例如想要换装,却不知道手里的衣服是什么颜色:只需要拍照上传给GPT-4,它很快就能将衣服纹理描述出来,材质、颜色和形状一清二楚:△翻译by有道在此之前,视障人士除了用手触摸以外,辨别物体往往需要依靠身边的人或是志愿者的帮助。有网友看到后赞叹:这是目前见过最令人惊叹的GPT-4应用之一!所以,加入了图像理解功能的GPT-4,究竟展现出了哪些能力?基于GPT-
ChatGPT、GPT-4的火爆,让大型语言模型迎来了迄今为止的高光时刻。但下一步又该往何处去?YannLeCun最近参与的一项研究指出,增强语言模型或许是个极具潜力的方向。这是一篇综述文章,本文将简单介绍该论文的主要内容。研究背景大型语言模型极大地推动了自然语言处理的进步,相关技术造就了几个拥有数百万用户的产品,包括编码助手Copilot,谷歌搜索引擎以及最近大火的ChatGPT。将记忆与组合性功能相结合后,大型语言模型能够以超前的性能执行各种任务,如语言理解或条件和无条件文本生成,从而让更高带宽的人机交互成为现实。然而,大型语言模型依旧存在一些限制,妨碍其进行更广泛的部署。大型语言模型通常
ChatGPT、GPT-4的火爆,让大型语言模型迎来了迄今为止的高光时刻。但下一步又该往何处去?YannLeCun最近参与的一项研究指出,增强语言模型或许是个极具潜力的方向。这是一篇综述文章,本文将简单介绍该论文的主要内容。研究背景大型语言模型极大地推动了自然语言处理的进步,相关技术造就了几个拥有数百万用户的产品,包括编码助手Copilot,谷歌搜索引擎以及最近大火的ChatGPT。将记忆与组合性功能相结合后,大型语言模型能够以超前的性能执行各种任务,如语言理解或条件和无条件文本生成,从而让更高带宽的人机交互成为现实。然而,大型语言模型依旧存在一些限制,妨碍其进行更广泛的部署。大型语言模型通常
一夜之间,大模型界又炸出个bignews!斯坦福发布Alpaca(羊驼,网友口中的“草泥马”):只花100美元,人人都可微调Meta家70亿参数的LLaMA大模型,效果竟可比肩1750亿参数的GPT-3.5(text-davinci-003)。而且还是单卡就能运行的那种,甚至树莓派、手机都能hold住!还有一个更绝的“骚操作”。研究所涉及到的数据集,是斯坦福团队花了不到500美元用OpenAI的API来生成的。所以整个过程下来,就等同于GPT-3.5自己教出了个旗鼓相当的对手AI。然后团队还说,用大多数云计算平台去微调训练好的模型,成本也不到100美元:复制一个GPT-3.5效果的AI,很便宜
一夜之间,大模型界又炸出个bignews!斯坦福发布Alpaca(羊驼,网友口中的“草泥马”):只花100美元,人人都可微调Meta家70亿参数的LLaMA大模型,效果竟可比肩1750亿参数的GPT-3.5(text-davinci-003)。而且还是单卡就能运行的那种,甚至树莓派、手机都能hold住!还有一个更绝的“骚操作”。研究所涉及到的数据集,是斯坦福团队花了不到500美元用OpenAI的API来生成的。所以整个过程下来,就等同于GPT-3.5自己教出了个旗鼓相当的对手AI。然后团队还说,用大多数云计算平台去微调训练好的模型,成本也不到100美元:复制一个GPT-3.5效果的AI,很便宜
大型语言模型最为人诟病的缺点,除了一本正经地胡言乱语以外,估计就是「不会算数」了。比如一个需要多步推理的复杂数学问题,语言模型通常都无法给出正确答案,即便有「思维链」技术的加持,往往中间步骤也会出错。与文科类的自然语言理解任务不同,数学问题通常只有一个正确答案,在不那么开放的答案范围下,使得生成准确解的任务对大型语言模型来说更具挑战性。并且,在数学问题上,现有的语言模型通常不会对自己的答案提供置信度(confidence),让用户无从判断生成答案的可信度。为了解决这个问题,微软研究院提出了MathPrompter技术,可以提高LLM在算术问题上的性能,同时增加对预测的依赖。论文链接:https
大型语言模型最为人诟病的缺点,除了一本正经地胡言乱语以外,估计就是「不会算数」了。比如一个需要多步推理的复杂数学问题,语言模型通常都无法给出正确答案,即便有「思维链」技术的加持,往往中间步骤也会出错。与文科类的自然语言理解任务不同,数学问题通常只有一个正确答案,在不那么开放的答案范围下,使得生成准确解的任务对大型语言模型来说更具挑战性。并且,在数学问题上,现有的语言模型通常不会对自己的答案提供置信度(confidence),让用户无从判断生成答案的可信度。为了解决这个问题,微软研究院提出了MathPrompter技术,可以提高LLM在算术问题上的性能,同时增加对预测的依赖。论文链接:https