草庐IT

MIT华人博士生将ChatGPT搬进Jupyter,自然语言编程一站式搞定

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。自然语言编程,在Jupyter里就能直接完成了!这款由MIT华人博士生打造的插件,实现了编程工具与GPT-4的无缝衔接。加载好之后,只要「说」出自己想要的程序,就能得到代码并直接调试运行。结合ChatGPT和Jupyter的名字,作者将其命名为Chapyter。Chapyter发布后,vscode用户投来了羡慕的目光,并期待自己有朝一日也能用上。而作者也回应说,适配更多平台的版本已经在路上了。在Jupyter中直接用自然语言编程Chapyter究竟和之前的Colab有什么区别呢?开发者列出了一张表格:在Jupyter中

ChinaSC2022超级算力大会,张先轶博士的演讲视频《异构计算软件栈的国产自主和国际化愿景》

ChinaSC演讲:张先轶(算力软件基建领军人物),异构计算软件栈的国产自主和国际化愿景2022年11月15日,“第四届中国超级算力大会ChinaSC2022”在北京成功举行。大会以“新算力、新基建、新经济”为主题,旨在展示加强国内外算力技术和产业交流合作,搭建政产学研对接平台,探索“东数西算”时代背景下,如何通过不断提高与创新超级算力,助力经济社会数字化转型。澎峰科技创始人兼CEO张先轶博士受邀以《异构计算软件栈的国产自主和国际化愿景》为题进行了主题演讲。演讲简介:“国际主流芯片公司Intel,NVIDIA以及AMD等,除了提供算力芯片之外,也通过构建高性能的计算软件栈生态,形成软硬一体化的

紫光展锐CEO任奇伟博士:用芯赋能,共建XR新生态

7月6日,2023世界人工智能大会在上海世博中心及世博展览馆盛大开幕。紫光集团高级副总裁、紫光展锐CEO任奇伟博士受邀出席芯片主题论坛,并发表题为《用芯赋能,共建XR新生态》的演讲。世界人工智能大会自2018年创办以来已成功举办五届,本届大会以“智联世界生成未来”为主题,由国家发展和改革委员会、工业和信息化部、科学技术部、国家互联网信息办公室、中国科学院、中国工程院、中国科学技术协会和上海市人民政府共同主办。吸引了国内外领军学者、知名企业家、国际组织代表等1400余位重量级嘉宾参会,重点围绕大模型、智能芯片、科学智能、机器人、类脑智能、元宇宙、自动驾驶、区块链等前沿风向展开前瞻性探讨,助推人工

斯坦福博士一己之力让Attention提速9倍!FlashAttention燃爆显存,Transformer上下文长度史诗级提升

继超快且省内存的注意力算法FlashAttention爆火后,升级版的2代来了。FlashAttention-2是一种从头编写的算法,可以加快注意力并减少其内存占用,且没有任何近似值。比起第一代,FlashAttention-2速度提升了2倍。甚至,相较于PyTorch的标准注意力,其运行速度最高可达9倍。一年前,StanfordAILab博士TriDao发布了FlashAttention,让注意力快了2到4倍,如今,FlashAttention已经被许多企业和研究室采用,广泛应用于大多数LLM库。如今,随着长文档查询、编写故事等新用例的需要,大语言模型的上下文以前比过去变长了许多——GPT-

斯坦福博士独作!大模型训练速度再翻倍,还官宣加入明星创业公司当首席科学家

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。现有大语言模型的训练和推理速度,还能再快一点——快多少?2-4倍。各种大模型都在用的FlashAttention今天正式发布第2代并开源,所有Transformer架构的模型都可使用它来加速。图片一代方法去年6月发布,无需任何近似即可加速注意力并减少内存占用。现在,FlashAttention-2将它再度升级,使其核心注意力操作的速度再提高2倍,端到端训练Transformer时的速度再提高1.3倍,并可在英伟达A100上训练时实现72%的模型FLOP利用率(一般模型都在50%上下)。图片鉴于现在炼一个大语言模型的成本

「研究问题」写不明白,读者一脸懵!MIT博士手把手教你写「问题设定」:论文得能变代码才行

最近,MIT博士TomSilver发表了一篇博客,他认为有很多AI论文都缺少了「问题设定」(ProblemSetting)部分,或者是字数不够导致定义不够清晰,让读者在阅读论文后很难用代码复现出具体方法。博客中介绍了自己关于如何写好问题设定部分的心得,并给出了一些他认为写的比较好的论文样例以供参考学习。TomSilver是麻省理工学院计算机科学专业五年级博士生,本科毕业于哈佛大学计算机科学与数学专业,主要研究方向是智能机器人,如自动规划、程序合成等。问题设定里应该有什么?除纯理论研究、实验现象的实证、提出新基准数据等类型的研究外,大部分AI领域的论文中基本都包括三要素:提出了一种新的方法(ne

【概率论与数理统计】猴博士 笔记 p11-14 一维、二维离散型求分布函数和期望、方差

一维离散型求分布函数通过一道例题来掌握这种题怎么做:解:一些补充:FX(x)表示的是P{X≤x}F_X(x)表示的是P\{X\lex\}FX​(x)表示的是P{X≤x}如果只有X一个未知数,则X可以省略分布律要从小到大排列。二维离散型求分布函数做题步骤:通过例题学习如果求二维的分布函数:什么叫做以左上角为起点,尽可能多做长方形:若有2x2的分布律,则可以作4个长方形。找每个长方形右下角代表的x,y的取值:注意,左闭右开求和:补充:F(x,y)=F{X≤x,Y≤y}F(x,y)=F\{X\lex,Y\ley\}F(x,y)=F{X≤x,Y≤y}一维离散型求期望、方差题干如下:给出离散型的XY,求

电磁学整理(猴博士)

场强与场强的叠加积分求场强与电场力利用积分求场强①对面投影,使面变成线②建立x,yx,yx,y坐标系{直线:x轴与线重合圆弧:原点位于圆心\begin{cases}直线:x轴与线重合\\圆弧:原点位于圆心\end{cases}{直线:x轴与线重合圆弧:原点位于圆心​③直线:选择线上任意一点,点宽度为dxdxdx,到OOO距离为xxx,求出该点对待求点的场强dEdEdE。弧:选择线上任意一点,点对应角度为dφdφdφ,求出该点对待求点的场强EEE。④求出dEdEdE在x,yx,yx,y轴的分量dEx,dEydE_x,dE_ydEx​,dEy​。⑤对dEx,dEydE_x,dE_ydEx​,dEy

线代【向量组与线性空间】--猴博士爱讲课

第五课向量组与线性空间1/4判断某向量是否可由某向量组线性表示这些只有一行(列)的矩阵既可以称作为向量。判断的标准:若(a1,a2,…am)的秩与(a1,a2,…am,b)的秩相等,则b可由a,a2,…am线性表示2/4判断某个向量组是否线性相关判断线性相关与无关:比较秩和向量个数若R3/4已知三维向量空间的一组基底,求某一向量在此基底下的坐标n(n>3)维向量空间同理4/4求几个行向量的极大无关组注意这里是求行向量的极大无关组,列向量不能这么求(极大无关组=极大线性无关组)第一步:构建向量的矩阵[0−4128−1−35135−141111]\left[\begin{matrix}0&-4&1

ChatGPT怎么突然变得这么强?华人博士万字长文深度拆解GPT-3.5能力起源

文章目录一、2020版初代GPT-3与大规模预训练二、从2020版GPT-3到2022版ChatGPT三、Code-Davinci-002和Text-Davinci-002,在代码上训练,在指令上微调四、text-davinci-003和ChatGPT,基于人类反馈的强化学习的威力五、总结当前阶段GPT-3.5的进化历程六、GPT-3.5目前不能做什么七、结论最近OpenAI发布的ChatGPT给人工智能领域注入了一针强心剂,其强大的能力远超自然语言处理研究者们的预期。体验过ChatGPT的用户很自然地就会提出疑问:初代GPT3是如何进化成ChatGPT的?GPT3.5惊人的语言能力又来自哪?