草庐IT

因果推理

全部标签

GenAI的“关键一跃”:推理与知识

当前的人工智能领域正通过生成式人工智能(GenAI)经历一场重大转变。这一转变不仅代表了技术上的飞跃,更标志着人工智能领域的范式转变,引发了有关GenAI的独特特性及其深远影响的关键问题讨论。植根于计算革命的丰富历史,本文从计算复杂性角度出发,探索推理和知识的本质,将历史性成就与最新的进展巧妙地交织在一起,以丰富我们对人工智能的理解。(本文作者为吕坚平博士。以下内容经授权后由OneFlow编译发布,转载请联系授权。原文:https://cplu.medium.com/reasoning-and-knowledge-80a02ec6c75b)作者|吕坚平OneFlow编译翻译|宛子琳、杨婷1引言

因果推断在语音识别中的应用

1.背景介绍1.1语音识别的重要性随着人工智能技术的飞速发展,语音识别已经成为了计算机科学领域的一个重要研究方向。语音识别技术的应用场景非常广泛,包括智能家居、自动驾驶、客服机器人等。准确、高效的语音识别系统可以极大地提高人们的生活质量和工作效率。1.2传统语音识别方法的局限性传统的语音识别方法主要依赖于特征提取和模式匹配。这些方法在一定程度上取得了成功,但仍然存在一些局限性,如对噪声敏感、对口音和语速的适应性较差等。为了克服这些局限性,研究人员开始尝试将因果推断引入语音识别领域。1.3因果推断的概念及其在语音识别中的价值因果推断是一种基于概率图模型的统计方法,旨在从观测数据中推断因果关系。通

DeepMind携Mamba华人作者推Transformer革命之作!性能暴涨媲美Llama 2,推理能效大幅碾压

Transformer又又又被挑战了!这次的挑战者来自大名鼎鼎的谷歌DeepMind,并且一口气推出了两种新架构,——Hawk和Griffin。论文地址:https://arxiv.org/abs/2402.19427这种将门控线性RNN与局部注意力混合在一起的模型新架构的表现相当亮眼。首先,同为线性RNN架构的Griffin,凭借着1/2的训练数据,在所有评测中全面优于之前大火的Mamba。更重要的是,Griffin将模型成功扩展到了14B,做到了Mamba想做却没能做的事。其次,面对基于Transformer架构的模型,Griffin则凭借着1/6的训练数据,打平甚至超越了同等参数量的Ll

7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力

图神经网络(GNNs)擅长利用图的结构信息进行推理,但它们通常需要特定于领域的调优才能达到峰值性能,这阻碍了它们在不同任务之间的泛化性。相比之下,基于大型语言模型(LLM)的图推理具有更强的跨任务和泛化能力,但它们在特定任务上的性能往往逊色于专用的图神经网络模型。无论是以图神经网络为代表的传统图推理还是新兴的基于大型语言模型的图推理,目前图推理相关工作都忽视了视觉模态的图信息。然而,人类会通过视觉特征高效和准确地完成图任务,例如判断图中是否存在环。因此,探究视觉形态的图信息在图推理中的作用具有重要意义。更具体地,将图(Graph)绘制为图片(Image),是否能赋予模型特殊的推理能力呢?这些图

人脸高清算法GFPGAN之TensorRT推理

1.综述最近由于做数字人项目,采用的是wav2lip+GFPGAN进行人脸面部高清,但GFPGAN模型本身比较大,所以想着使用TensorRT来代替原始的pth推理看看能否提升运行速度,于是便开始了这趟windows10之下进行GFPGAN的trt推理的折腾之旅。2.环境我会提供一个我写好GFPGAN的trt推理的完整工程包。我的环境是windows10+cuda11.7+cudnn8.9.2+TensorRT-8.5.1.7+pycuda_cuda115+python3.8的虚拟环境。2.1TensorRT的环境安装TensorRT的环境安装参考英伟达官方TensorRT8.x下载地址2.1

java - PMD 的 ArrayIsStoredDirectly 规则背后的推理

PMD在SunSecurity规则集中有一个名为ArrayIsStoredDirectly的规则:Constructorsandmethodsreceivingarraysshouldcloneobjectsandstorethecopy.Thispreventsthatfuturechangesfromtheuseraffecttheinternalfunctionality.这是他们的例子:publicclassFoo{privateString[]x;publicvoidfoo(String[]param){//Don'tdothis,makeacopyofthearrayatl

AIGC学习笔记——CLIP详解加推理

clip论文地址:https://arxiv.org/pdf/2103.00020.pdfclip代码地址:https://github.com/openai/CLIP小辉问:能不能解释一下zero-shot?小G答:零次学习(Zero-ShotLearning,简称ZSL)假设斑马是未见过的类别,但根据描述外形和马相似、有类似老虎的条纹、具有熊猫相似的颜色,通过这些描述推理出斑马的具体形态,从而能对斑马进行辨认。零次学习就是希望能够模仿人类的这个推理过程,使得计算机具有识别新事物的能力。标准图像模型联合训练一个图像特征提取器和一个线性分类器来预测某些标签,而CLIP联合训练图像编码器和文本编

YOLOV8目标识别与语义分割——使用OpenCV C++ 推理模型

简介深度学习在实际应用中包括训练和推理两个重要阶段,通常依赖于流行的深度学习框架,如Caffe、TensorFlow、PyTorch等。然而,这些框架的安装和配置往往复杂,在实际部署中可能面临一些挑战。自从OpenCV3.3版本起,引入了DNN模块,为用户提供了一种更加简便的方式进行深度学习推理。使用OpenCV的DNN接口,用户可以无需安装额外的依赖,直接在正常安装OpenCV的基础上,使用经过训练的深度学习模型进行推理计算,从而简化了深度学习模型的部署过程。这为开发者提供了更方便、更轻量级的选择,使得在实际应用中更容易集成深度学习技术。推理环境当前使用的环境是OpenCV4.7带dnn模块

高性能 LLM 推理框架的设计与实现

一、大语言模型推理概要介绍与传统的CNN模型推理不同,大语言模型的推理通常会分成prefill和decoding两个阶段。每一个请求发起后产生的推理过程都会先经历一个Prefill过程,prefill过程会计算用户所有的输入,并生成对应的KV缓存,再经历若干个decoding过程,每一个decoding过程,服务器都会生成一个字符,并将其放入到KV缓存当中,之后依次迭代。由于decoding过程是逐个字符生成的,每一段答案的生成都需要很长时间,会生成很多字符,所以decoding阶段的数量非常多,占到整个推理过程的90%以上。在Prefill过程中,虽然计算量很大,因为要一次性完成用户输入的所

GPT-4、Gemini同时被曝重大缺陷,逻辑推理大翻车!DeepMind上交校友团队发现LLM严重降智

最近,谷歌DeepMind和斯坦福的研究人员发现:大模型在处理逻辑推理任务时,问题中信息呈现的顺序对模型的表现有着决定性的影响。论文地址:https://arxiv.org/abs/2402.08939具体来说,当信息按照逻辑上的自然顺序排列时,模型的表现会更好。这一发现不仅适用于一般的逻辑推理问题,对于数学问题也同样有效。比如,如果某个证明任务的条件是:1.如果A,那么B;2.如果B,那么C;3.A为真。要求大模型证明C为真,如果条件按照1,2,3的顺序呈现,那么大模型的成功率会比2,1,3的条件呈现顺序高出很多。所以,以后用大模型,言简意赅,符合逻辑地提出问题能让它性能更强。上图展示了一个