碾压_草庐IT

维基百科+大模型打败幻觉！斯坦福WikiChat性能碾压GPT-4，准确率高达97.3%

大语言模型的幻觉问题被解决了！近日，来自斯坦福的研究人员发布了WikiChat——被称为首个几乎不产生幻觉的聊天机器人！论文发表在EMNLP2023，并且在Github上开源了代码：论文地址：https://aclanthology.org/2023.findings-emnlp.157.pdf项目代码：https://github.com/stanford-oval/WikiChat作者表示自己的最佳模型在新的基准测试中获得了97.3%的事实准确性，而相比之下，GPT-4的得分仅为66.1%。在「recent」和「tail」两个知识子集中，这个差距甚至更大。另外，作者还发现了检索增强生成（R

编码碾压ChatGPT！UIUC清华联手发布7B参数Magicoder，代码数据权重全开源

开源「代码大模型」来了！UIUC清华团队的研究人员发布了Magicoder，不到7B参数，就能在代码生成领域与顶级代码模型不相上下。值得一提的是，Magicoder的代码、权重和数据，毫无保留完全开源。论文地址：https://arxiv.org/abs/2312.02120Magicoder依靠的OSS-INSTRUCT的方法，是通过对现有顶级代码模型（例如ChatGPT）的提示，加上网络上的种子代码片段，来生成的代码。这可真是取之于大模型，用之于大模型；就有网友转发说道：通过这些结果，看到了提高用于LLMs的合成数据的潜力也是一个非常有趣的领域。话不多说，那就让我们来具体了解一下Magic

2.7B能打Llama 2 70B，微软祭出「小语言模型」！96块A100 14天训出Phi-2，碾压谷歌Gemini nano

大模型现在真的是越来越卷了！11月OpenAI先是用GPTs革了套壳GPT们的命，然后再不惜献祭董事会搏了一波天大的流量。谷歌被逼急了，赶在年底之前仓促发布了超大模型Gemini，卷起了多模态，甚至不惜「视频造假」。就在今天，微软正式发布了曾在11月Ignite大会上预告的Phi-2！凭借着2.7B的参数，「小语言模型（SLM）」Phi-2几乎打穿了所有13B以下的大模型——包括谷歌最新发布的GeminiNano2。通过模型扩展和训练数据管理方面的创新，Phi-2展现了出色的推理和语言理解能力，在复杂的基准测试中，Phi-2的性能可以打平比自己大25倍的模型，甚至略占上风。它用非常「苗条」的尺

谷歌深夜放复仇杀器Gemini，最强原生多模态史诗级碾压GPT-4！语言理解首超人类

谷歌的复仇大杀器Gemini，深夜忽然上线！被ChatGPT压着打了整整一年，谷歌选择在12月的这一天，展开最强反击战。多模态Gemini，迄今规模最大、能力最强的谷歌大模型，在文本、视频、语音等多个领域超越了GPT-4，是真正的一雪前耻。人类有五种感官，我们所建造的世界、所消费的媒体，都是以这样的方式所呈现。而Gemini的出现，就是迈向真正通用的AI模型的第一步！Gemini的诞生，代表着AI模型的巨大飞跃，谷歌所有的产品，都将随之改头换面。塞进多模态模型的搜索引擎、广告产品、Chrome浏览器……这，就是谷歌给我们的未来。多模态的史诗级创新以前，多模态大模型就是将纯文本、纯视觉和纯音频模

Hinton和LeCun再交锋，激辩LLM能否引发智能奇点！LeCun：人类理解能力碾压GPT-4

AI大佬的激战再次掀起。Hinton在线直接点名LeCun，说他对AI接管风险的看法对人类的影响微乎其微。这意味着，他把自己的意见看得很重，而把许多其他同样有资格的专家的意见看得很轻。在Hinton看来，他们之间意见分歧的核心论点是「LLM是真正理解自己说什么」。当然了，一直站在末日派中的Hinton认为大模型有了意识，而LeCun、吴恩达等人却认为LLM不明白自己所说。对此，LeCun反驳道，大模型显然对其阅读和生成的内容有「一些」理解，但这种理解是非常有限和肤浅的。总的来说，目前自回归大模型没有对推理和规划能力，远未及人类水平的智能。恰在近日，LeCun发表了一篇新论文，再提自回归LLM做

13B模型全方位碾压GPT-4？这背后有什么猫腻

一个参数量为13B的模型竟然打败了顶流GPT-4？就像下图所展示的，并且为了确保结果的有效性，这项测试还遵循了OpenAI的数据去污方法，更关键的是没有发现数据污染的证据。如果你细细查看图中的模型，发现只要带有「rephraser」这个单词，模型性能都比较高。这背后到底有何猫腻？原来是数据污染了，即测试集信息在训练集中遭到泄漏，而且这种污染还不易被检测到。尽管这一问题非常关键，但理解和检测污染仍然是一个开放且具有挑战性的难题。现阶段，去污最常用的方法是n-gram重叠和嵌入相似性搜索：N-gram重叠依赖于字符串匹配来检测污染，是GPT-4、PaLM和Llama-2等模型常用方法；嵌入相似性搜

1分钟预测10天全球天气！谷歌DeepMind全新AI天气预报登上Science，碾压行业SOTA

不到1分钟，高精度预测出10天的全球天气。ChatGPT之后，又一个AI模型的能力再次惊艳了全世界！从15日开始，未来十天的全球天气状况它就是，谷歌DeepMind团队提出全新的全球天气预报模型——GraphCast，最新研究登上Science。图片论文地址：https://www.science.org/doi/10.1126/science.adi2336当前天气预报的主流方式就是「数值天气预报」（NWP），使用复杂的算法求解物理方程，既耗时又昂贵。而深度学习模型GraphCast在欧洲中期天气预报中心（ECMWF）近40年的数据上进行训练，来了解天气如何随时间演变。图片研究发现，与行业黄

2个月月活突破1亿，增速碾压抖音，出道即封神的ChatGPT，现在怎么样了？ChatGPT它会干掉测试？

从互联网的普及到智能手机，都让广袤的世界触手而及，如今身在浪潮中的我们，已深知其力。前阵子爆火的ChatGPT，不少人保持观望态度。现如今，国内关于ChatGPT的各大社群讨论，似乎沉寂了不少，现在怎么样了？我们先来复盘，ChatGPT是一款人工智能聊天程序，去年11月底仓促推出，今年2月风靡全球，亮相即封神。ChatGPT系统代码总量超350G，只要跟ChatGPT概念沾点边，搭上点关系，股价全都在飙升。最初的访客是程序员、工程师、AI从业者，很快吸引了各路投资人，从早高峰写字楼电梯里讨论声到村里大爷们的饭后谈资。使用感丝滑，但开始失控ChatGPT能通过年薪18万美元工程师招聘考试，可以写

AI智能超越人类终解开！李飞飞高徒新作破圈，5万个合成数据碾压人类示例，备咖啡动作超丝滑

AI巨佬GeoffreyHinton称，「科技公司们正在未来18个月内，要使用比现在GPT-4多100倍的算力训练新模型」。更大参数的模型，对算力需求巨大的同时，对数据也提出了更高的要求。但是，更多的高质量数据该从何来？英伟达高级科学家JimFan表示，「合成数据，将为我们饥渴的模型提供万亿个token」。作为例证，英伟达与UT的研究人员在最新研究中，提出了一个MimicGen系统，能够大量生成机器人训练数据。论文地址：https://arxiv.org/pdf/2310.17596.pdf具体过程是，通过在模拟环境中，使用数字孪生技术复制真实世界中，人类的操作数据。仅用了不到200个人类演示

Aspera——碾压prefetch命令的存在, 利用SRR号批量高效下载FASTQ或SRA数据

本节简单介绍Aspera安装和使用，并给出利用SRR号批量下载FASTQ或SRA数据的方法，通过比较发现aspera的下载速度与prefetch相比有了质的飞跃前言：我们下载测序数据一般使用sra-tools的prefetch功能，通过SRR号从NCBI的SRA数据库下载SRA文件，这种方式比较稳定，但下载速度有所限制且需要将SRA再转化为FASTQ文件，这过程中又会消耗不少时间和算力。一种替代方法是使用Aspera软件，从EBI（EuropeanBioinformaticsInstitute）的ENA(EuropeanNucleotideArchive)数据库直接下载FASTQ格式文件，免去