倍_草庐IT

大模型推理效率无损提升3倍，滑铁卢大学、北京大学等机构发布EAGLE

大语言模型（LLM）被越来越多应用于各种领域。然而，它们的文本生成过程既昂贵又缓慢。这种低效率归因于自回归解码的运算规则：每个词（token）的生成都需要进行一次前向传播，需要访问数十亿至数千亿参数的LLM。这导致传统自回归解码的速度较慢。近日，滑铁卢大学、加拿大向量研究院、北京大学等机构联合发布EAGLE，旨在提升大语言模型的推理速度，同时保证模型输出文本的分布一致。这种方法外推LLM的第二顶层特征向量，能够显著提升生成效率。技术报告：https://sites.google.com/view/eagle-llm代码（支持商用Apache2.0）：https://github.com/Saf

一招MAX降低10倍，现在它是我的了

一.背景性能优化是一场永无止境的旅程。到家门店系统，作为到家核心基础服务之一，门店C端接口有着调用量高，性能要求高的特点。C端服务经过演进，核心接口先查询本地缓存，如果本地缓存没有命中，再查询Redis。本地缓存命中率99%，服务性能比较平稳。随着门店数据越来越多，本地缓存容量逐渐增大到3G左右。虽然对垃圾回收器和JVM参数都进行调整，由于本地缓存数据量越来越大，本地缓存数据对于应用GC的影响越来越明显，YGC平均耗时****100ms，特别是大促期间调用方接口毛刺感知也越来越明显。由于本地缓存在每台机器上容量是固定的，即便是将机器扩容，对与GC毛刺也没有明显效果。二.初识此物心已惊-OHC初

OpenAI的Whisper蒸馏：蒸馏后的Distil-Whisper速度提升6倍

1Distil-Whisper诞生Whisper是OpenAI研发并开源的一个自动语音识别（ASR，AutomaticSpeechRecognition）模型，他们通过从网络上收集了68万小时的多语言（98种语言）和多任务（multitask）监督数据对Whisper进行了训练。OpenAI认为使用这样一个庞大而多样的数据集，可以提高模型对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别，Whisper还能实现多种语言的转录，以及将这些语言翻译成英语。目前，Whisper已经有了很多变体，也成为很多AI应用构建时的必要组件。最近，来自HuggingFace的团队提出了一种新变体——Di

javascript视频倍速播放

javascript视频倍速播放要实现JavaScript视频倍速播放，您需要使用HTML5video元素的playbackRate属性。该属性控制视频播放的速度，其默认值为1（正常速度）。您可以将该属性设置为大于或小于1的值来更改视频播放速度。以下是实现JavaScript视频倍速播放的代码示例：SlowNormalFastvarmyVideo=document.getElementById("myVideo");functionplaySlow(){myVideo.playbackRate=0.5;myVideo.play();}functionplayNormal(){myVideo.p

Elasticsearch 优化查询中获取字段内容的方式，性能提升5倍！

1、背景集群配置为：8个node节点，16核32G，索引4分片1副本。应用程序的查询逻辑是按经纬度排序后找前200条文档。1、应用对查询要求比较高，search没有慢查询的状态。2、集群压测性能不能上去，cpu使用未打满，查询的qps上不去，且有队列堆积。2、优化方法通过云厂商内核组的同学抓取火焰图发现，主要消耗在fetchphrase阶段。ES默认从_source取，每次查询都会读取一行数据，并需要做解压，如果对查询耗时要求比较高，应当在查询时关闭storefields，查询语句指定“stored_fields”:[“none”],砍掉元数据字段，同时用“docvalue_fields”:[

吞吐量提升近30倍！田渊栋团队最新论文解决大模型部署难题

大型语言模型（LLM）在今年可谓是风光无限。不过惊艳的效果背后是一个巨大的模型以及夸张的硬件资源。LLM在现实中部署时通常会面临两个难题：昂贵的KV缓存成本，以及对长序列的泛化能力差。近日，田渊栋团队发表了一篇论文，成功解决以上两个难题，并将推理系统的吞吐量提高了近30倍！论文地址：https://arxiv.org/pdf/2306.14048.pdf代码地址：https://github.com/FMInference/H2O这个成果也将在NeurIPS'23上展示。下面，我们来看一下这两个难题的具体情况，以及论文提供的解决方案。首先是缓存，KV缓存用于存储生成过程中的中间注意力键和值，以

ES通过抽样agg聚合性能提升3-5倍

一直以来，es的agg聚合分析性能都比较差（对应sql的groupby）。特别是在超多数据中做聚合，在搜索的条件命中特别多结果的情况下，聚合分析会非常非常的慢。一个聚合条件：聚合分析请求的时间=searchtime+aggtime N个聚合条件：聚合分析请求的时间=searchtime+aggtime*N 搜索的数据范围越大，聚合请求时间越长。搜索条件命中的数据越多，聚合请求的时间越长。搜索的字段，不一样的值越多，聚合请求时间越长。例如性别字段，通常仅有3个取值（男、女、未知），这种属于取值少的。像邮箱字段，值非常多，上亿个。这种就

【WSL】[01] windows subsytem linux 安装、尤其（Ubuntu) 以及GUI的详细安装方法 - 升级APT到APT-FAST，加快8倍安装速度

第【1】章前言：AI的训练和设计似乎ubuntu是必要的，而且，GPU的配置似乎也是要在Ubuntu下，某些模式版本才能兼容。单独搞一个编译服务器是个思路，但是，如果资金不够，也许要考虑在Windwos和Linux的系统共生下做点文章。Windows开始提供了内嵌的对Linux的子系统兼容模式。利用这个模式可以在windows操作系统环境直接用应用软件的方式，操作子系统。很显然，这种方式比之前的双操作系统，重复启动，和利用Vmware在一个摆烂的环境里面运行要好的多。【案】作者安装windows的guide做了很多实验，发现遇到很多问题，这里大致给出来思路和笔者实际采用的解决办法。一个工具准备

颠覆Transformer霸权！CMU普林斯顿推Mamba新架构，解决致命bug推理速度暴增5倍

深度学习进入新纪元，Transformer的霸主地位，要被掀翻了？2017年6月12日横空出世，让NLP直接变天，制霸自然语言领域多年的Transformer，终于要被新的架构打破垄断了。Transformer虽强大，却有一个致命的bug：核心注意力层无法扩展到长期上下文。刚刚，CMU和普林斯顿的研究者发布了Mamba。这种SSM架构在语言建模上与Transformers不相上下，而且还能线性扩展，同时具有5倍的推理吞吐量！论文地址：https://arxiv.org/abs/2312.00752论文一作AlbertGu表示，二次注意力对于信息密集型模型是必不可少的，但现在，再也不需要了！论文

能耗比达到GPT-4 10倍！黄学东亲自解密Zoom AI的成功之道，AI伴侣直接替你开会

近日，AI大佬，现任ZoomCTO的黄学东，在自家的官网上发表了一篇博客。其中隆重介绍了自己加入Zoom六个月之后创新的成果——ZoomAICompanion，以及驱动ZoomAICompanion的Zoom联邦（federatedapproach）AI。在Zoom之前，黄学东曾担任微软AzureAI首席技术官，他不仅是微软首位全球华人技术院士，也是微软最高级别的华人科学家。黄学东在微软任职了超过30年，在他的牵线搭桥下，微软于1998年在北京建起第一个亚洲研究院。在2017年和2020年，黄学东分别当选ACM和IEEE会士，并于2023年同时当选美国国家工程院院士和美国艺术与科学院院士。黄学