草庐IT

清华同方

全部标签

一句话精准视频片段定位!清华新方法拿下SOTA|已开源

只需一句话描述,就能在一大段视频中定位到对应片段!比如描述“一个人一边下楼梯一边喝水”,通过视频画面和脚步声的匹配,新方法一下子就能揪出对应起止时间戳:就连“大笑”这种语义难理解型的,也能准确定位:方法名为自适应双分支促进网络(ADPN),由清华大学研究团队提出。具体来说,ADPN是用来完成一个叫做视频片段定位(TemporalSentenceGrounding,TSG)的视觉-语言跨模态任务,也就是根据查询文本从视频中定位到相关片段。ADPN的特点在于能够高效利用视频中视觉和音频模态的一致性与互补性来增强视频片段定位性能。相较其他利用音频的TSG工作PMI-LOC、UMT,ADPN方法从音频

首创pix2emb范式!NUS清华联合发布NExT-Chat:对话/检测/分割全能多模态大模型

随着ChatGPT的爆红,多模态领域也涌现出一大批可以处理多种模态输入的对话模型,如LLaVA,BLIP-2等等。为了进一步扩展多模态大模型的区域理解能力,近期新加坡国立大学NExT++实验室和清华大学的研究人员联手打造了一个可以同时进行对话和检测、分割的多模态模型NExT-Chat。作者:张傲,姚远,吉炜,刘知远,ChuaTat-Seng多模态对话模型Demo:https://next-chatv.github.io/论文:https://arxiv.org/pdf/2311.04498.pdf代码:https://github.com/NExT-ChatV/NExT-Chat文章探索了如何

程序员面试笔试通关宝典系列丛书(由清华大学出版社出版)

程序员面试笔试通关宝典系列——编程职场成功的必备秘籍由清华大学出版社出版的专为编程爱好者和职业开发者打造的“程序员面试笔试通关宝典”系列丛书。该系列包含五本专业指南,覆盖数据库、Java、前端、通用编程和Python五个领域。这些书籍深度解析各领域的核心技术,包括数据库理论、Java高级特性、前端现代框架、编程基础与进阶知识以及Python语言艺术。每本书都融入了实战笔试题和面试技巧,并有行业资深专家的深度解读和经验分享。无论你是编程新手还是寻求职业突破的资深开发者,这套系列都将为你提供强大的支持。它将帮助你提升理论与实践能力,从容应对各种面试和笔试挑战,助力你在编程职业生涯中取得成功。选择“

让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接

来自清华大学交叉信息研究院的研究者提出了「GenH2R」框架,让机器人学习通用的基于视觉的人机交接策略(generalizablevision-basedhuman-to-robothandoverpolicies)。这种可泛化策略使得机器人能更可靠地从人们手中接住几何形状多样、运动轨迹复杂的物体,为人机交互提供了新的可能性。随着具身智能(EmbodiedAI)时代的来临,我们期待智能体能主动与环境进行交互。在这个过程中,让机器人融入人类生活环境、与人类进行交互(HumanRobotInteraction)变得至关重要。我们需要思考如何理解人类的行为和意图,以最符合人类期望的方式满足其需求,将

AAAI 2024 Fellow公布,清华大学朱军教授入选

AAAI(AssociationfortheAdvancementofArtificialIntelligence)是国际人工智能领域最权威的学术组织之一,Fellow是该学会给予会员的最高荣誉,仅颁给对人工智能做出「非同寻常的卓越贡献者」,而且评价时间以十年计。由于其评判极其严格,历届AAAIFellow入选者均为人工智能领域公认的著名学者,每年严格限制入选人数,因此被誉为国际人工智能领域的名人堂。今日,AAAI公布了2024年度的Fellow评选结果,共12位学者入选,其中包括清华大学教授朱军。AAAI2024FellowAnimaAnandkumar加州理工学院、英伟达入选理由:对机器学

ACMix:清华提出融合卷积与自注意力机制的模块

前几天看了一篇由清华大学发表的融合卷积与自注意力机制的文章,其中将融合模块称为ACMix。本文主要就其中的融合细节进行讲述。paper:http://arxiv.org/abs/2111.14556code:https://github.com/LeapLabTHU/ACmix\quad介绍(文章贡献)有两个方面:(1)揭示了自注意力和卷积之间的强大潜在关系,为理解两个模块之间的联系提供了新的视角,并为设计新的学习范式提供了灵感。(2)提出了自注意力和卷积模块的优雅集成,它享有两个世界的好处。经验证据表明,混合模型始终优于其纯卷积或自注意力模型。\quad相关工作这部分主要针对Self-Att

离线AI聊天清华大模型(ChatGLM3)本地搭建

在特定的情况下,要保证信息安全的同时还能享受到AIGC大模型带来的乐趣和功能,那么,离线部署就能帮助到你,最起码,它是一个真正可用的方案。大模型本身清华的(ChatGLM3),为的是对中文支持友好,另外就是我也很看好它,毕竟一直在优化自己的模型,提升模型的质量。如果基础环境没有布置好可以参考我上篇文章《Ubuntu22.04TeslaV100s显卡驱动,CUDA,cuDNN,MiniCONDA3环境的安装》。ChatGLM3(ChatGLM3-6B)项目地址https://github.com/THUDM/ChatGLM3大模型是很吃CPU和显卡的,所以,要不有一个好的CPU,要不有一块好的显

存内计算路线再获加持,清华存内芯片登Science

2023年9月14日,清华大学吴华强及高滨共同通讯在Science在线发表题为“Edgelearningusingafullyintegratedneuro-inspiredmemristorchip”的研究论文,论文显示,团队基于存内计算范式,研制出全系统集成、支持高效片上学习(机器学习能在硬件端直接完成)的存内计算芯片。针对AI时代的新技术的方向,基于存储器运行计算的新型架构模式,进一步被验证。存算一体:继CPU、GPU架构之后的算力架构“第三极”清华最新芯片成果,登上Science!它集合了记忆、计算和学习能力,能在片上快速完成不同任务的模型训练。而能耗仅为先进工艺下ASIC的1/35,

清华大学提出三维重建的新方法:O²-Recon,用2D扩散模型补全残缺的3D物体

在计算机视觉中,物体级别的三维表面重建技术面临诸多挑战。与场景级别的重建技术不同,物体级别的三维重建需要为场景中的每个物体给出独立的三维表示,以支持细粒度的场景建模和理解。这对AR/VR/MR以及机器人相关的应用具有重要意义。许多现有方法利用三维生成模型的隐空间来完成物体级别的三维重建,这些方法用隐空间的编码向量来表示物体形状,并将重建任务建模成对物体位姿和形状编码的联合估计。得益于生成模型隐空间的优秀性质,这些方法可以重建出完整的物体形状,但仅限于特定类别物体的三维重建,如桌子或椅子。即使在这些类别中,这类方法优化得到的形状编码也往往难以准确匹配实际物体的三维形状。另外一些方法则从数据库中检

图解数据结构系列丛书(由清华大学出版社出版)

一图胜千言,轻松掌握数据结构由清华大学出版社出版的“图解数据结构系列丛书”提供C++、C、C#、Python、JavaScript、Java等多种语言版本,通过丰富的图例和视频教程,让学习更加直观、高效,让你轻松掌握数据结构。无论您选择哪种语言版本,都能帮助您快速理解和掌握数据结构的核心概念,提升编程能力。无论您是初学者还是资深开发者,都能从中获得宝贵的知识和经验。让我们一起踏上图解数据结构的学习之旅吧!✨图解数据结构系列丛书图解数据结构(使用C++视频教学版)京东购买链接:https://item.jd.com/13382791.html图解数据结构——使用C(视频教学版)京东购买链接:ht