草庐IT

阅读文献

全部标签

RT-DETR论文阅读笔记(包括YOLO版本训练和官方版本训练)

论文地址:RT-DETR论文地址代码地址:RT-DETR官方下载地址大家如果想看更详细训练、推理、部署、验证等教程可以看我的另一篇博客里面有更详细的介绍内容回顾:详解RT-DETR网络结构/数据集获取/环境搭建/训练/推理/验证/导出/部署 目录一、介绍 二、相关工作2.1、实时目标检测器的发展2.2、端到端目标检测器的流程2.3、强调多尺度特征在改进目标检测性能三、端到端检测器的速度3.1、分析NMS3.2、建立一个端到端速度测试基准四、实时的DETR模型4.1、模型概览4.2、高效混合编码器4.3、IoU感知查询选择4.4、可扩展的RT-DETR五、实验5.1、 实验设置5.2、与SOTA

【快速阅读一】带蒙版的均值模糊快速实现以及其在填充无效区域时的应用。

  最近遇到一个需求,从相机获取的数据局部区域存在空值,即那些地方没有有效数据,如果直接赋值为0,则很有可能得到错误的结果,如果不填充值,很多算法又无法进行,因此,需要一种填充算法把这些空白区域设置成合适的值。我想了一下,有几个算法可  能可以解决这个问题:  1、inpainting(修复)算法,Inpainting本身就是一种修复算法,可以从周边领域的信息填充未知区域的值,这个开源的在Opencv里有2种。      但是这个算法的步骤实际上都是迭代算法,一步一步由空值边缘向空值内部慢慢填充,直到填充完成或者达到指定的迭代步数。    2、PS里的智能填充算法或者类似效果,当然PS没开源,

经典文献阅读之--Surround-View Survey(自动驾驶中基于环视视觉的3D检测综述)

0.简介对于基于环视视觉的3D检测而言,目前已经有很多文章了。因为基于视觉的3D检测任务是自动驾驶系统感知的基本任务,然而,使用单目相机的2D传感器输入数据来实现相当好的3DBEV(鸟瞰图)性能不是一项容易的任务。这篇文章《Surround-ViewVision-based3DDetectionforAutonomousDriving:ASurvey》就是围绕着现有的基于视觉3D检测方法进行了文献调研,并且将它们分为不同的子组以便更容易地理解共同趋势。这对于想要入门这块领域的同学非常友好图1.自动驾驶中的全景图像3D检测器。在透视视图中,覆盖在全景图像上的地面真实3D框(顶部);在BEVHD地

【论文阅读】Jailbroken: How Does LLM Safety Training Fail?

越狱:大语言模型安全训练何以失败本文的目标是分析LLM能够被越狱的原因论文地址:https://arxiv.org/abs/2307.024831.Jailbreak介绍随着大模型的应用越来越广泛,有一些人就想利用大模型去获得一些有害信息。所以现在的大语言模型在预训练之后都会经过安全训练阶段,这个阶段会设置一些安全措施,比如过滤和对齐等,让模型的输出符合人类价值观,训练它拒绝提供有害信息的请求,如图1这种有害问题,它就会拒绝回答.图1越狱攻击就是通过设计Prompt,绕过大模型开发者为其设置的安全和审核机制,利用大模型对输入提示的敏感性和容易受到引导的特性,诱导大模型生成不合规的、本应被屏蔽的

android - 深色背景下难以阅读的推送通知

我正在使用Onesignal.com向Web推送用户发送通知。Firefox用户可以正确显示通知,但Chrome用户无法阅读(深色背景上的黑色文本)并且图标太小。这是截图:我正在使用:Chrome55.0.2883.91安卓6.0华为P9Light(VNSL31)对这个问题有什么想法吗? 最佳答案 Android上的Chrome自定义了通知的显示(以添加自己的功能),并且在以深色主题显示通知时有点错误。一个开放的Chromebug在这里描述了这个问题:https://bugs.chromium.org/p/chromium/issu

android - Android 上的 PDF 阅读

我必须制作一个能够在Android设备上阅读PDF文档的应用程序。实际上,我不希望我的应用程序依赖于其他应用程序来读取PDF文件。我已经解决了这里和其他一些地方提出的问题。他们都直接或间接使用第三方应用程序。是否有任何API或类似的东西可以让我在我的应用程序中直接读取PDF文件?如何将PDF文档转换为PNG图像?但是PDF-PNG方法不会让用户选择文本。有什么建议吗?谢谢 最佳答案 Adobe提供了一个库供您使用。它基于NDK,您需要自己进行包装。它也非常昂贵,对于小公司/单个开发人员来说基本上没有什么,但对于大公司来说。Afaik

【论文阅读笔记】Branch Aggregation Attention Network for Robotic Surgical Instrument Segmentation

1.论文介绍2023年发表在IEEETMI上的文章,名字为《BranchAggregationAttentionNetworkforRoboticSurgicalInstrumentSegmentation》(用于机器人手术器械分割的分支聚合注意力网络),link,code在code(其实还没上传)。2.摘要手术器械分割对机器人辅助手术具有重要意义,但手术过程中反射、水雾、运动模糊等噪声以及手术器械的不同形态会大大增加精确分割的难度。提出了一种新的基于分支聚合注意力网络(BAANet)的特征定位方法,该方法采用轻量级编码器,并设计了分支平衡聚合模块(BBA)和块注意力融合模块(BAF),实现了

论文阅读--Cell-free massive MIMO versus small cells

无蜂窝大规模MIMO与小蜂窝网络论文信息NgoHQ,AshikhminA,YangH,etal.Cell-freemassiveMIMOversussmallcells[J].IEEETransactionsonWirelessCommunications,2017,16(3):1834-1850.  无蜂窝大规模MIMO中没有小区或者小区边界的界定,所有接入点通过回程网络进行相位相干协作,并通过时分双工(TDD)操作为同一时频资源中的所有用户提供服务。分布式MIMO系统的替代方案是部署由不合作的接入点组成的小蜂窝网络。  在现有文献中,没有考虑不完善的CSI、导频分配和功率控制的影响的小蜂窝

【论文阅读笔记】Medical Vision Language Pretraining: A survey

arXiv:2312.06224Submitted11December,2023;originallyannouncedDecember2023.这篇综述文章很长,本文对各部分简要概述。【文章整体概述】医学视觉语言预训练(VLP)最近已经成为解决医学领域标记数据稀缺问题的一种有希望的解决方案。通过利用成对或非成对的视觉和文本数据集进行自监督学习,模型能够获得大量知识并学习强大的特征表示。这样的预训练模型有潜力同时提升多个下游医学任务,减少对标记数据的依赖。然而,尽管近期取得了进展并显示出潜力,目前还没有一篇综述文章全面探讨了医学VLP的各个方面和进展。在本文中,特别审视了现有工作,通过不同的预

论文阅读——Loss odyssey in medical image segmentation

Lossodysseyinmedicalimagesegmentationgithub:https://github.com/JunMa11/SegLossOdyssey这篇文章回顾了医学图像分割中的20种不同的损失函数,旨在回答:对于医学图像分割任务,我们应该选择哪种损失函数?首先是一张各类分割函数的图谱:介绍函数之前先定义字母符号的含义:,分别代表分割结果和GT,代表里面的每个体素,N是一张图片体素数量,C是类别损失函数分为四类:即分布不匹配,区域、边界或它们的某种组合。1.Distribution-basedLoss 基于分布的损失函数旨在最小化两个分布之间的不相似性。以交叉熵cross