草庐IT

image-extraction

全部标签

【论文阅读笔记】医学多模态新数据集-Large-scale Long-tailed Disease Diagnosis on Radiology Images

这是上海交通大学2023.12.28开放出来的数据集和论文,感觉很宝藏,稍微将阅读过程记录一下。ZhengQ,ZhaoW,WuC,etal.Large-scaleLong-tailedDiseaseDiagnosisonRadiologyImages[J].arXivpreprintarXiv:2312.16151,2023.项目主页:https://qiaoyu-zheng.github.io/RP3D-Diag/代码:https://github.com/qiaoyu-zheng/RP3D-Diag数据集:https://huggingface.co/datasets/QiaoyuZhen

【论文阅读】MCANet: Medical Image Segmentation with Multi-Scale Cross-Axis Attention

文章目录摘要创新点总结实现效果总结摘要链接:https://arxiv.org/abs/2312.08866医学图像分割是医学图像处理和计算机视觉领域的关键挑战之一。由于病变区域或器官的大小和形状各异,有效地捕捉多尺度信息和建立像素间的长距离依赖性至关重要。本文提出了一种基于高效轴向注意力的多尺度交叉轴注意(MCA)方法来解决这些问题。MCA通过计算两个并行轴向注意力之间的双向交叉注意力,以更好地捕获全局信息。此外,为了处理病变区域或器官在个体大小和形状上的显著变化,我们还在每个轴向注意力路径中使用不同大小的条形卷积核进行多次卷积,以提高编码空间信息的效率。我们将提出的MCA构建在MSCAN主

《REBEL Relation Extraction By End-to-end Language generation》阅读笔记

论文来源 代码地址 相关视频(YouTube) 相关概念:1.Whatisnaturallanguageunderstanding(NLU)?Naturallanguageunderstanding(NLU)isabranchofartificialintelligence(AI)thatusescomputersoftwaretounderstandinputintheformofsentencesusingtextorspeech.NLUenableshuman-computerinteractionbyanalyzinglanguageversusjustwords.NLUenables

《A Novel Table-to-Graph Generation Approach for Document-Level Joint Entity and Relation Extraction》阅读笔记

代码 原文地址 文档级关系抽取(DocRE)的目的是从文档中提取实体之间的关系,这对于知识图谱构建等应用非常重要。然而,现有的方法通常需要预先识别出文档中的实体及其提及,这与实际应用场景不一致。为了解决这个问题,本文提出了一种新颖的表格到图生成模型(TAG),它能够在文档级别上同时抽取实体和关系。TAG的核心思想是在提及之间构建一个潜在的图,其中不同类型的边反映了不同的任务信息,然后利用关系图卷积网络(RGCN)对图进行信息传播。此外,为了减少错误传播的影响,本文在解码阶段采用了层次聚类算法,将任务信息从提及层反向传递到实体层。在DocRED数据集上的实验结果表明,TAG显著优于以前的方法,达

《An End-to-end Model for Entity-level Relation Extraction using Multi-instance Learning》阅读笔记

代码 原文地址 预备知识:1.什么是MIL?多示例学习(MIL)是一种机器学习的方法,它的特点是每个训练数据不是一个单独的实例,而是一个包含多个实例的集合(称为包)。每个包有一个标签,但是包中的实例没有标签。MIL的目的是根据包的标签来学习实例的特征和分类规则,或者根据实例的特征来预测包的标签。MIL的应用场景包括药物活性预测、图像分类、文本分类、关系抽取等。MIL的挑战在于如何处理实例之间的相关性、标签的不确定性和数据的不平衡性。MIL的常用算法有基于贝叶斯、KNN、决策树、规则归纳、神经网络等的方法,以及基于注意力机制、自编码器、变分推断等的方法。 2.什么是基于跨度(span)的命名实体

《Span-Based Joint Entity and Relation Extraction with Transformer Pre-Training》阅读笔记

代码 原文地址 预备知识:1.什么是束搜索算法(beam search)?beam search是一种用于许多自然语言处理和语音识别模型的算法,作为最终决策层,用于在给定目标变量(如最大概率或下一个输出字符)的情况下选择最佳输出。 2.什么是条件随机场(ConditionalRandomField,CRF)?CRF是一类统计建模方法,通常应用于模式识别和机器学习,并用于结构化预测。分类器预测单个样本的标签时不考虑“邻近”样本,而CRF可以考虑上下文。 3.ELMo模型是如何工作的?与Glove和Word2Vec不同,ELMo使用包含该单词的完整句子来表示单词的嵌入。因此,ELMo嵌入能够捕获句

《RAPL: A Relation-Aware Prototype Learning Approach for Few-Shot Document-Level Relation Extraction》阅读笔记

代码 原文地址 预备知识:1.什么是元学习(MetaLearning)?元学习或者叫做“学会学习”(Learningtolearn),它是要“学会如何学习”,即利用以往的知识经验来指导新任务的学习,具有学会学习的能力。由于元学习可帮助模型在少量样本下快速学习,从元学习的使用角度看,人们也称之为少次学习(Few-ShotLearning)。 2.什么是基于度量的元学习(Metric-based meta-learning)?基于度量的元学习将相似性学习和元学习相结合,学习训练过的相似任务的经验,从而加快新任务的完成。Guo等人将注意机制与集成学习方法相结合,形成了基于度量的元学习模型。 标记文档

【快速阅读二】从OpenCv的代码中扣取泊松融合算子(Poisson Image Editing)并稍作优化

  泊松融合我自己写的第一版程序大概是2016年在某个小房间里折腾出来的,当时是用的迭代的方式,记得似乎效果不怎么样,没有达到论文的效果。前段时间又有网友问我有没有这方面的程序,我说Opencv已经有了,可以直接使用,他说opencv的框架太大,不想为了一个功能的需求而背上这么一座大山,看能否做个脱离那个环境的算法出来,当时,觉得工作量挺大,就没有去折腾,最近年底了,项目渐渐少了一点,公司上面又在搞办公室政治,我地位不高,没有参与权,所以乐的闲,就抽空把这个算法从opencv里给剥离开来,做到了完全不依赖其他库实现泊松融合乐,前前后后也折腾进半个月,这里还是做个开发记录和分享。  在翻译算法过

【快速阅读二】从OpenCv的代码中扣取泊松融合算子(Poisson Image Editing)并稍作优化

  泊松融合我自己写的第一版程序大概是2016年在某个小房间里折腾出来的,当时是用的迭代的方式,记得似乎效果不怎么样,没有达到论文的效果。前段时间又有网友问我有没有这方面的程序,我说Opencv已经有了,可以直接使用,他说opencv的框架太大,不想为了一个功能的需求而背上这么一座大山,看能否做个脱离那个环境的算法出来,当时,觉得工作量挺大,就没有去折腾,最近年底了,项目渐渐少了一点,公司上面又在搞办公室政治,我地位不高,没有参与权,所以乐的闲,就抽空把这个算法从opencv里给剥离开来,做到了完全不依赖其他库实现泊松融合乐,前前后后也折腾进半个月,这里还是做个开发记录和分享。  在翻译算法过

Halcon边缘滤波器edges_image 算子

Halcon边缘滤波器edges_image算子基于Sobel滤波器的边缘滤波方法是比较经典的边缘检测方法。除此之外,Halcon也提供了一些新式的边缘滤波器,如edges_image算子。它使用递归实现的滤波器(如Deriche、Lanser和Shen)检测边缘,也可以使用高斯导数滤波器检测边缘。此外,edges_image算子也提供了非极大值抑制和滞后阈值,使提取出的边缘更细化。edges_image算子同样能返回精确的边缘梯度和方向,这一点比Sobel滤波器要好一些,但是相应地所花的时间也长一些。对一些强调精度而不注重运算时间的场合,可以使用edges_image算子来提高检测效率。此外