草庐IT

维基百科+大模型打败幻觉!斯坦福WikiChat性能碾压GPT-4,准确率高达97.3%

大语言模型的幻觉问题被解决了!近日,来自斯坦福的研究人员发布了WikiChat——被称为首个几乎不产生幻觉的聊天机器人!论文发表在EMNLP2023,并且在Github上开源了代码:论文地址:https://aclanthology.org/2023.findings-emnlp.157.pdf项目代码:https://github.com/stanford-oval/WikiChat作者表示自己的最佳模型在新的基准测试中获得了97.3%的事实准确性,而相比之下,GPT-4的得分仅为66.1%。在「recent」和「tail」两个知识子集中,这个差距甚至更大。另外,作者还发现了检索增强生成(R

编码碾压ChatGPT!UIUC清华联手发布7B参数Magicoder,代码数据权重全开源

开源「代码大模型」来了!UIUC清华团队的研究人员发布了Magicoder,不到7B参数,就能在代码生成领域与顶级代码模型不相上下。值得一提的是,Magicoder的代码、权重和数据,毫无保留完全开源。论文地址:https://arxiv.org/abs/2312.02120Magicoder依靠的OSS-INSTRUCT的方法,是通过对现有顶级代码模型(例如ChatGPT)的提示,加上网络上的种子代码片段,来生成的代码。这可真是取之于大模型,用之于大模型;就有网友转发说道:通过这些结果,看到了提高用于LLMs的合成数据的潜力也是一个非常有趣的领域。话不多说,那就让我们来具体了解一下Magic

2.7B能打Llama 2 70B,微软祭出「小语言模型」!96块A100 14天训出Phi-2,碾压谷歌Gemini nano

大模型现在真的是越来越卷了!11月OpenAI先是用GPTs革了套壳GPT们的命,然后再不惜献祭董事会搏了一波天大的流量。谷歌被逼急了,赶在年底之前仓促发布了超大模型Gemini,卷起了多模态,甚至不惜「视频造假」。就在今天,微软正式发布了曾在11月Ignite大会上预告的Phi-2!凭借着2.7B的参数,「小语言模型(SLM)」Phi-2几乎打穿了所有13B以下的大模型——包括谷歌最新发布的GeminiNano2。通过模型扩展和训练数据管理方面的创新,Phi-2展现了出色的推理和语言理解能力,在复杂的基准测试中,Phi-2的性能可以打平比自己大25倍的模型,甚至略占上风。它用非常「苗条」的尺

谷歌深夜放复仇杀器Gemini,最强原生多模态史诗级碾压GPT-4!语言理解首超人类

谷歌的复仇大杀器Gemini,深夜忽然上线!被ChatGPT压着打了整整一年,谷歌选择在12月的这一天,展开最强反击战。多模态Gemini,迄今规模最大、能力最强的谷歌大模型,在文本、视频、语音等多个领域超越了GPT-4,是真正的一雪前耻。人类有五种感官,我们所建造的世界、所消费的媒体,都是以这样的方式所呈现。而Gemini的出现,就是迈向真正通用的AI模型的第一步!Gemini的诞生,代表着AI模型的巨大飞跃,谷歌所有的产品,都将随之改头换面。塞进多模态模型的搜索引擎、广告产品、Chrome浏览器……这,就是谷歌给我们的未来。多模态的史诗级创新以前,多模态大模型就是将纯文本、纯视觉和纯音频模

Hinton和LeCun再交锋,激辩LLM能否引发智能奇点!LeCun:人类理解能力碾压GPT-4

AI大佬的激战再次掀起。Hinton在线直接点名LeCun,说他对AI接管风险的看法对人类的影响微乎其微。这意味着,他把自己的意见看得很重,而把许多其他同样有资格的专家的意见看得很轻。在Hinton看来,他们之间意见分歧的核心论点是「LLM是真正理解自己说什么」。当然了,一直站在末日派中的Hinton认为大模型有了意识,而LeCun、吴恩达等人却认为LLM不明白自己所说。对此,LeCun反驳道,大模型显然对其阅读和生成的内容有「一些」理解,但这种理解是非常有限和肤浅的。总的来说,目前自回归大模型没有对推理和规划能力,远未及人类水平的智能。恰在近日,LeCun发表了一篇新论文,再提自回归LLM做

13B模型全方位碾压GPT-4?这背后有什么猫腻

一个参数量为13B的模型竟然打败了顶流GPT-4?就像下图所展示的,并且为了确保结果的有效性,这项测试还遵循了OpenAI的数据去污方法,更关键的是没有发现数据污染的证据。如果你细细查看图中的模型,发现只要带有「rephraser」这个单词,模型性能都比较高。这背后到底有何猫腻?原来是数据污染了,即测试集信息在训练集中遭到泄漏,而且这种污染还不易被检测到。尽管这一问题非常关键,但理解和检测污染仍然是一个开放且具有挑战性的难题。现阶段,去污最常用的方法是n-gram重叠和嵌入相似性搜索:N-gram重叠依赖于字符串匹配来检测污染,是GPT-4、PaLM和Llama-2等模型常用方法;嵌入相似性搜

1分钟预测10天全球天气!谷歌DeepMind全新AI天气预报登上Science,碾压行业SOTA

不到1分钟,高精度预测出10天的全球天气。ChatGPT之后,又一个AI模型的能力再次惊艳了全世界!从15日开始,未来十天的全球天气状况它就是,谷歌DeepMind团队提出全新的全球天气预报模型——GraphCast,最新研究登上Science。图片论文地址:https://www.science.org/doi/10.1126/science.adi2336当前天气预报的主流方式就是「数值天气预报」(NWP),使用复杂的算法求解物理方程,既耗时又昂贵。而深度学习模型GraphCast在欧洲中期天气预报中心(ECMWF)近40年的数据上进行训练,来了解天气如何随时间演变。图片研究发现,与行业黄

2个月月活突破1亿,增速碾压抖音,出道即封神的ChatGPT,现在怎么样了?ChatGPT它会干掉测试?

从互联网的普及到智能手机,都让广袤的世界触手而及,如今身在浪潮中的我们,已深知其力。前阵子爆火的ChatGPT,不少人保持观望态度。现如今,国内关于ChatGPT的各大社群讨论,似乎沉寂了不少,现在怎么样了?我们先来复盘,ChatGPT是一款人工智能聊天程序,去年11月底仓促推出,今年2月风靡全球,亮相即封神。ChatGPT系统代码总量超350G,只要跟ChatGPT概念沾点边,搭上点关系,股价全都在飙升。最初的访客是程序员、工程师、AI从业者,很快吸引了各路投资人,从早高峰写字楼电梯里讨论声到村里大爷们的饭后谈资。使用感丝滑,但开始失控ChatGPT能通过年薪18万美元工程师招聘考试,可以写

AI智能超越人类终解开!李飞飞高徒新作破圈,5万个合成数据碾压人类示例,备咖啡动作超丝滑

AI巨佬GeoffreyHinton称,「科技公司们正在未来18个月内,要使用比现在GPT-4多100倍的算力训练新模型」。更大参数的模型,对算力需求巨大的同时,对数据也提出了更高的要求。但是,更多的高质量数据该从何来?英伟达高级科学家JimFan表示,「合成数据,将为我们饥渴的模型提供万亿个token」。作为例证,英伟达与UT的研究人员在最新研究中,提出了一个MimicGen系统,能够大量生成机器人训练数据。论文地址:https://arxiv.org/pdf/2310.17596.pdf具体过程是,通过在模拟环境中,使用数字孪生技术复制真实世界中,人类的操作数据。仅用了不到200个人类演示

Aspera——碾压prefetch命令的存在, 利用SRR号批量高效下载FASTQ或SRA数据

本节简单介绍Aspera安装和使用,并给出利用SRR号批量下载FASTQ或SRA数据的方法,通过比较发现aspera的下载速度与prefetch相比有了质的飞跃前言:我们下载测序数据一般使用sra-tools的prefetch功能,通过SRR号从NCBI的SRA数据库下载SRA文件,这种方式比较稳定,但下载速度有所限制且需要将SRA再转化为FASTQ文件,这过程中又会消耗不少时间和算力。一种替代方法是使用Aspera软件,从EBI(EuropeanBioinformaticsInstitute)的ENA(EuropeanNucleotideArchive)数据库直接下载FASTQ格式文件,免去