草庐IT

计算需求降为1%! 清华大学首次提出「二值化光谱重建算法」,代码全开源|NeurIPS 2023

相比于常规的三通道 RGB图像,高光谱图像包含几十上百个波段,从而捕获了关于成像场景更丰富的信息。也正因为这一重要特性,高光谱图像被广泛地应用于医疗,地形勘探,农业等领域。如图1所示,在医院进行检查时,如果只看常规的RGB图像可能很难诊断病因,但是如果采用高光谱图像捕获并在特定波长下渲染的话,就可以看清楚各类血管,骨骼结构等,从而辅助医生诊断。同样的原理也可应用在遥感地形勘探和农业病虫害检测。图1高光谱图像的应用然而高光谱图像并不容易获取,传统的成像设备采用光谱仪对成像场景进行逐波段的扫描,费时费力,难以捕捉运动场景。近些年,科学家们专门设计了单曝光压缩成像(SnapshotCompressi

突破分辨率极限,字节联合中科大提出多模态文档大模型

现在连文档都有大模型了,还是高分辨率、多模态的那种!不仅能准确识别出图像里的信息,还能结合用户需求调用自己的知识库来回答问题。比如,看到图中马里奥的界面,直接就回答出了这是任天堂公司的作品。这款模型由字节跳动和中国科学技术大学合作研究,于2023年11月24日上传至arXiv。在此研究中,作者团队提出DocPedia,一个统一的高分辨率多模态文档大模型DocPedia。在此研究中,作者用一种新的方式解决了现有模型不能解析高分辨文档图像的短板。DocPedia分辨率可达2560×2560,而目前业内先进多模态大模型如LLaVA、MiniGPT-4等处理图像分辨率上限为336×336,无法解析高分

LLM之Prompt(二):清华提出Prompt 对齐优化技术BPO

论文题目:《Black-BoxPromptOptimization:AligningLargeLanguageModelswithoutModelTraining》论文链接:https://arxiv.org/abs/2311.04155github地址:https://github.com/thu-coai/BPOBPO背景介绍    最近,大型语言模型(LLM)在各种应用中都取得了显著的成功,比如文本生成,文生图大模型等。然而,这些模型往往与人类意图不太一致,这就需要对其进行额外的处理,即对齐问题。为了使LLM更好地遵循用户指令,现有的对齐方法(比如RLHF、RLAIF和DPO)主要侧重于

CMU/MIT/清华/Umass提出生成式机器人智能体RoboGen

文章目录导读1.Introduction2.论文地址3.项目主页4.开源地址5.RoboGenPipeline6.ExperimentalResults作者介绍Reference导读CMU/MIT/清华/Umass提出的全球首个生成式机器人智能体RoboGen,可以无限生成数据,让机器人7*24小时永不停歇地训练。AIGCforRobotics。1.Introduction全球首个生成式机器人Agent发布了!长久以来,相比于语言或者视觉模型可以在大规模的互联网数据上训练,训练机器人的策略模型需要带有动态物理交互信息的数据,而这些数据的匮乏一直是具身智能发展的最大瓶颈。最近,来自CMU、清华、

训练130亿大模型仅3天,北大提出Chat-UniVi统一图片和视频理解

论文地址:https://arxiv.org/pdf/2311.08046.pdfGitHub地址:https://github.com/PKU-YuanGroup/Chat-UniViHuggingface地址:https://huggingface.co/Chat-UniViDemo地址:https://huggingface.co/spaces/Chat-UniVi/Chat-UniVi图1Chat-UniVi在图片、视频上的17个基准上达到先进的性能具体来说,北京大学和中山大学的研究人员提出了一种名为Chat-UniVi的统一的视觉语言方案,其能通过统一的视觉表征同时处理图片任务和视频

一个提示,让Llama 2准确率飙至80.3%?Meta提出全新注意力机制S2A,大幅降低模型幻觉

2023的科技界,可以说是被大模型抢尽了风头(虚假的室温超导除外)。我们经历了和LLM对话,见证了它们逐渐进入各个领域,甚至开始感受到威胁。这一切,仅仅发生在一年之内。当然了,基于大语言模型的原理,它诞生之时就有的一些毛病到现在也没有完全改正。比如偏见(或包含不良信息)、幻觉(编造不存在的事情)、推理能力仍然比较弱(尽管有了stepbystep),还有一个问题是LLM倾向于迎合使用者的观点(阿谀奉承)。第一个问题比较严重,因为它违背了大众的价值观。而幻觉这个问题也在不久前被全网讨论,并导致Meta团队发布的Galactica大模型遭受争议、被迫下线。作为一个早于ChatGPT发布,又具有强大能

ChatGPT性能最多提升214%,刷新七个榜单!IDEA、港科大广州等提出ToG思维图谱

大模型虽好,但「一本正经的胡说八道」的问题该怎么解?在金融、法律、医疗等严肃领域,幻觉问题一直是制约大模型落地应用的主要瓶颈。如何弥补这部分缺陷,使更多行业能快速加入对新一轮生产力变革的探索,是当下AI研究的重要课题,其中,大模型(LLM)与知识图谱(KG)的融合来弥补前者的能力短板,是颇受关注的研究方向。最近,来自IDEA研究院、微软亚洲研究院、香港科技大学、香港科技大学(广州)、厦门大学和美国南加州大学的研究团队推出Think-on-Graph(思维图谱)技术,通过LLM与KG的紧耦合交互,驱动LLMagent在知识图谱上「思考」,逐步搜索推理出最优答案。图片论文地址:https://ar

YOLOv8独家改进:分层特征融合策略MSBlock | 南开大学提出YOLO-MS |超越YOLOv8与RTMDet,即插即用打破性能瓶颈

 💡💡💡本文独家改进:分层特征融合策略MSBlock,不同Kernel-Size卷积在不同尺度提升特征提取能力,最终引入到YOLOv8,做到二次创新1)MSBlock使用;2)和C2f结合使用推荐指数:5颗星MSBlock | 亲测在多个数据集能够实现大幅涨点,小目标检测效果也不错💡💡💡Yolov8魔术师,独家首发创新(原创),适用于Yolov5、Yolov7、Yolov8等各个Yolo系列,专栏文章提供每一步步骤和源码,轻松带你上手魔改网络💡💡💡重点:通过本专栏的阅读,后续你也可以自己魔改网络,在网络不同位置(Backbone、head、detect、loss等)进行魔改,实现创新!!!专栏

「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR

多模态对比表示(multi-modalcontrastiverepresentation,MCR)的目标是将不同模态的输入编码到一个语义对齐的共享空间中。随着视觉-语言领域中CLIP模型的巨大成功,更多模态上的对比表征开始涌现出来,并在诸多下游任务上得到了明显的提升,但是这些方法严重依赖于大规模高质量的配对数据。为了解决这个问题,来自浙江大学等机构的研究人员提出了连接多模态对比表示(C-MCR),一种无需配对数据且训练极为高效的多模态对比表征学习方法。论文地址:https://arxiv.org/abs/2305.14381项目主页:https://c-mcr.github.io/C-MCR/

如何使用Kong提出请求?

当我向Kong提出请求时1)将API添加到Kongcurl-i-XPOST\--urlhttp://localhost:8001/apis/\--data'name=AnalyticInputHist19api'\--data'hosts=localhost'\--data'upstream_url=http://localhost:9090/AnalyticsInputHistoryController'2)使用curl-i-XGET\--urlhttp://localhost:8000/\--header'Host:localhost'它返回我:HTTP/1.1502BadGatewayD