Models_草庐IT

【论文阅读】DiffTalk: Crafting Diffusion Models forGeneralized Audio-Driven Portraits Animation

DiffTalk:制作广义音频驱动人像动画的扩散模型paper：DiffTalk:CraftingDiffusionModelsforGeneralizedAudio-DrivenPortraitsAnimation(thecvf.com)code：GitHub-sstzal/DiffTalk:[CVPR2023]Theimplementationfor"DiffTalk:CraftingDiffusionModelsforGeneralizedAudio-DrivenPortraitsAnimation"目录1介绍2背景3方法4实验5结论1介绍生成质量和模型泛化是将谈话头合成技术的两个重要因

论文阅读笔记Binary Code Summarization: Benchmarking ChatGPT/GPT-4 and Other Large Language Models

摘要二进制代码总结，虽然对于理解代码语义非常有价值，但由于其劳动密集的特性，具有挑战性。本研究深入探讨了大型语言模型（LLMs）在理解二进制代码方面的潜力。为此，作者提出了BinSum，一个包含超过557,000个二进制函数的全面基准和数据集，并引入了一种新颖的提示合成和优化方法。为了更准确地衡量LLM的性能，作者还提出了一种超越传统精确匹配方法的新语义相似度度量。作者对知名LLM进行了广泛评估，包括ChatGPT、GPT-4、Llama2和CodeLlama，揭示了10个关键见解。此评估生成了40亿推理令牌，总费用为11,418美元，使用了873个NVIDIAA100GPU小时。作者的发现突

Summarization Benchmarking xff0c xff xff0 论文阅读笔记 chatgpt

【论文精读】HAMMER: Learning Entropy Maps to Create Accurate 3D Models in Multi-View Stereo

今天读一篇WACV2024上MVS的文章，作者来自格拉茨技术大学。文章链接：点击前往Abstract为了减少在深度图融合点云参数调整上的实验负担，可以学习基于entropy的filteringmask进而根据两个视角的几何验证来重建三维模型。并且，提出的网络计算开销不大，训练只需要6GB，测试时，3.6GB即可处理1920*1024的图片，性能也和sota很接近。1IntroductionMVS问题当中，尽管输出首先是深度图，但当今最常见的基准测试是评估点云，即3D模型而不是深度图。虽然深度图的创建是由神经网络处理的，但点云仍然通过检查几何和光度一致性以经典方式生成。photometricma

精读 Multi-View span class xff0c 计算机视觉人工智能

论文阅读：Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

目录摘要引言相关工作VisualChatGPTPromptManagingofSysytemPrinciplesM(P)PromptManagingofFoundationModelsM(F)PromptManagingofUserQuerieM(Qi)PromptManagingofFoundationModelOut-putsM(F(A(j)i))实验实验设置摘要 VisualChatGPT的作用：1、不仅可以发送和接收语言，也可以发送和接收图像；2、提供了复杂的视觉问题或视觉编辑指令，这需要多个AI模型多步骤的协作；3、提供反馈并且要求纠正结果。考虑到多输入/输出模型和需要视觉反馈的模型

Visual Foundation xff0c xff xff0 人工智能 chatgpt

【纯干货】医疗视觉大模型2023年进展简述｜Medical Vision-language Models (VLM)

写在前面——本篇为原创内容，如转载/引用请务必注明出处！！（最后更新于2023年11月16日）如有错误，欢迎评论区指出！！不胜感激！！点赞三连谢谢!!!如有MedicalImageAnalysis,ClinicalDataMining,AIinHealtcare,LLMs合作或共同学习意向，欢迎pm私信我，我给你发社交账号～～Aims:帮助大家更快地了解目前处在起步阶段的“医学视觉大模型”。可以当作“Perspectivearticle”来阅读。医学图像辅助诊断是指使用计算机技术（如图像处理、模式识别等）来分析医学成像数据（如X射线、CT、MRI、Histology、Endoscope等），旨

干货简述 xff xff0c xff0 语言模型人工智能健康医疗机器学习视觉检测文心一言 chatgpt

lag-llama源码解读(Lag-Llama: Towards Foundation Models for Time Series Forecasting)

Lag-Llama:TowardsFoundationModelsforTimeSeriesForecasting文章内容：时间序列预测任务，单变量预测单变量，基于Llama大模型，在zero-shot场景下模型表现优异。创新点，引入滞后特征作为协变量来进行预测。获得不同频率的lag，来自glunoTS库里面的源码def_make_lags(middle:int,delta:int)->np.ndarray:"""Createasetoflagsaroundamiddlepointincluding+/-delta."""returnnp.arange(middle-delta,middle+

Forecasting Foundation span class token llama python 开发语言

论文阅读--High-Resolution Image Synthesis with Latent Diffusion Models

High-ResolutionImageSynthesiswithLatentDiffusionModels论文阅读Abstract&IntroductionDiffusionmodel相比GAN可以取得更好的图片生成效果，然而该模型是一种自回归模型，需要反复迭代计算，因此训练和推理代价都很高。论文提出一种在潜在表示空间（latentspace）上进行diffusion过程的方法，从而能够大大减少计算复杂度，同时也能达到十分不错的图片生成效果。图像符号：在RGB空间：编码器encoder：，将x压缩成低维表示解码器decoder:D，将低维表示z还原成原始图像空间。用于生成控制的条件去噪自编码

High-Resolution Resolution span class style 论文阅读深度学习卷积神经网络机器学习 python 人工智能

【论文阅读+复现】SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models

SparseCtrl:在文本到视频扩散模型中添加稀疏控制。（AnimateDiffV3，官方版AnimateDiff+ControlNet，效果很丝滑）code：GitHub-guoyww/AnimateDiff:OfficialimplementationofAnimateDiff.paper：https://arxiv.org/abs/2311.16933目录文章1介绍2背景3方法4实验5结论复现1问题2结果文章1介绍动机：不断调整文字prompt以达到理想效果非常耗时费力，作者希望通过添加额外输入条件（草图、深度和RGB图像）来控制T2V生成。方法：提出SparseCtrl，通过带有附加

复现 Text-to-Video xff0c xff xff0 论文阅读 stable diffusion

Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models ----论文阅读

Vary预备知识CLIPQwen-7BVicuna-7B简介模型产生新视觉词表新词汇网络数据输入格式融合新视觉词表Vary-base结构数据对话格式模型输出结果示例结论Vary的代码和模型均已开源，还给出了供大家试玩的网页demo。感兴趣的小伙伴可以去试试主页：https://varybase.github.io/部分内容参考：https://mp.weixin.qq.com/s/Sg_yHAVVN-yAYT61SNKvCA预备知识CLIP官网：https://openai.com/research/clip（要了解的建议看这个，篇幅少点，论文中大量篇幅是介绍实验的）论文：https://ar

Vision Vision-Language xff0c xff xff0 语言模型论文阅读人工智能

[论文阅读笔记] TRACE: A Comprehensive Benchmark for Continual Learning In Large Language Models

一、论文信息1论文标题TRACE:AComprehensiveBenchmarkforContinualLearningInLargeLanguageModels2发表刊物arXiv20233作者团队复旦大学4关键词Benchmark、ContinualLearing、LLMs二、文章结构#mermaid-svg-AWUENWtk6KXhB7b8{font-family:"trebuchetms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-AWUENWtk6KXhB7b8.error-icon{fill:#5

Comprehensive Benchmark span class style 论文阅读笔记语言模型自然语言处理人工智能