草庐IT

Transformer-Based

全部标签

阅读文献《SCNet:Deep Learning-Based Downlink Channel Prediction for FDD Massive MIMO System》

该文献的作者是清华大学的高飞飞老师,于2019年11月发表在IEEECOMMUNICATIONSLETTERS上。文章给出了当用户位置到信道的映射是双射时上行到下行的确定映射函数;还提出了一个稀疏复值神经网络(sparsecomplex-valuedneuralnetwork,SCNet)来逼近映射函数,SCNet直接根据预估的上行链路CSI预测下行链路CSI,不需要下行链路训练,也不需要上行链路反馈。1研究背景在大规模MIMO中,BS使用CSI用于波束形成、用户调度等,UE使用CSI用于信号检测,但由于下行链路训练和上行链路反馈相关的开销过高,因此需要进行优化工作。由于BS和用户的信道只有很

swift : Sorting three arrays based on a particular array

我有这三个数组:letcodesArray=["de_DE","en_US","en-GB","es_ES"]letlocalesArray=["Deutsch","English","EnglishUK","Español"]letinternationalsArray=["German","English","BritishEnglish","Spanish"]我想对internationalsArray进行排序,并根据internationalsArray对其他数组进行排序,这样我将获得:codesArraySorted=["en-GB","en_US","de_DE","es_

Nougat:一种用于科学文档OCR的Transformer 模型

随着人工智能领域的不断进步,其子领域,包括自然语言处理,自然语言生成,计算机视觉等,由于其广泛的用例而迅速获得了大量的普及。光学字符识别(OCR)是计算机视觉中一个成熟且被广泛研究的领域。它有许多用途,如文档数字化、手写识别和场景文本识别。数学表达式的识别是OCR在学术研究中受到广泛关注的一个领域。PDF是最广泛使用的格式之一,它通常保存在书籍中或发表在学术期刊上。pdf是互联网上第二大使用的数据格式,占信息的2.4%,经常用于文档传递。尽管它们被广泛使用,但从PDF文件中提取信息可能很困难,特别是在处理像科学研究文章这样高度专业化的材料时。因为包含了很多的数学公式,而现阶段的OCR可能会导致

TartanVO: A Generalizable Learning-based VO 论文阅读

论文信息题目:TartanVO:AGeneralizableLearning-basedVO作者:WenshanWang,YaoyuHu来源:CoRL时间:2021代码地址:https://github.com/castacks/tartanvoAbstract我们提出了第一个基于学习的视觉里程计(VO)模型,该模型可推广到多个数据集和现实场景,并且在具有挑战性的场景中优于基于几何的方法。我们通过利用SLAM数据集TartanAir来实现这一目标,该数据集在具有挑战性的环境中提供了大量多样化的合成数据。此外,为了使我们的VO模型能够跨数据集泛化,我们提出了一个大规模损失函数,并将相机内在参数合

An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA

本文是LLM系列文章,针对《AnEmpiricalStudyofGPT-3forFew-ShotKnowledge-BasedVQA》的翻译。GPT-3对基于小样本知识的VQA的实证研究摘要引言相关工作方法OK-VQA上的实验VQAv2上的实验结论摘要基于知识的视觉问答(VQA)涉及回答需要图像中不存在的外部知识的问题。现有的方法首先从外部资源中检索知识,然后对所选知识、输入图像和问答预测进行推理。然而,这种两步走的方法可能会导致失配,从而潜在地限制VQA性能。例如,检索到的知识可能是嘈杂的,与问题无关,并且在推理过程中重新嵌入的知识特征可能偏离其在知识库(KB)中的原始含义。为了应对这一挑战

Wang Sheng: Metaverse Success Depends on New Graph-based AI Paradigm

Themetaversehasgainedtremendouspopularityoverthepastyear,witharangeofleadingentertainment,gaming,andtechnologycompaniesadoptingthisconceptintotheirbusinesses.Inthisarticle,weinvitedMr.WangSheng,apartnerofInnoangelFund,tosharehisideasaboutthemetaverseandthenewparadigmofgraph-basedAI.AccordingtoWangSh

CVPR 2022 Image Dehazing Transformer with Transmission-Aware 3D Position Embedding 个人学习笔记

源码下载:CVPR2022ImageDehazingTransformerwithTransmission-Aware3D代码-深度学习文档类资源-CSDN下载Abstract尽管卷积神经网络(CNNs)的单图像去模糊已经取得了良好的进展,但卷积固有的等方差和局部性仍然是去雾性能的瓶颈。虽然Transformer占据了各种计算机视觉任务,但直接利用Transformer进行图像去雾具有挑战性:1)往往会导致模糊和粗糙的细节,不适合图像重建;2)Transformer的位置嵌入以逻辑或空间位置顺序提供,忽略了变化的雾霾密度,导致去雾性能次优。        本研究的关键见解是研究如何结合CNN和

好文推荐 A transformer-based representation-learning model with unified processing of multimodal input

论文地址:https://www.nature.com/articles/s41551-023-01045-x代码地址:https://github.com/RL4M/IRENE基于Transformer的表示学习模型,作为临床诊断辅助工具,以统一的方式处理多模态输入。将图像与文字转化为visualtokens和texttokens,通过一个双向的跨模态注意力机制块共同学习不同信息间的整体特征和其关联性来做出决策。第一个以统一方式使用人工智能处理多模态信息,在临床上辅助医生进行决策诊断。为后续医学领域人工智能处理多模态信息提供一种新的思路。Data胸腔医学中,除了胸部X射线,医生还需要考虑患者

MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection 论文解读

文章目录1.Abstract2.Introduction3.RelatedworkDETRbasemethods4.Method4.1FeatureExtractionVisualFeaturesdepthfeaturesforegrounddepthmap4.2DepthguidedtransformerVisualanddepthencodersDepth-guided-decoderDepthpositionalencoding4.3Detectionheadsandlossbipartitematchingoverallloss4.4Plug-and-playforMulti-view