草庐IT

Convolutions

全部标签

progressive random convolutions for single domain generalization论文阅读过程

采用的是吴恩达老师的论文阅读方法。阅读过程:Multiplepasses[多次通读]Readthetitle/abstract/figuresTitleProgressive采用渐进的方式,逐步改进模型性能或逐步引入新的技术。渐进性通常表示逐步迭代和改进。Progressivelystackrandconvblock【重复迭代】--block(变形偏移+仿射变换)【保留语义并获得更多style】Randomconvolutions可能在卷积层中引入某种随机性或随机特征来提高性能。【猜测可能用crf】基于randconvSingledomaingeneralization主要目标是解决单一领域泛

Lama:《Resolution-robust Large Mask Inpainting with Fourier Convolutions》训练、推理实战记录

记录一下Lama模型的训练、infe踩坑,以及如何更改预设的mask生成方式。一、环境简单提一下,一定要按照作者给的requirements.txt里的库版本安装,hydra-core和pytorch-lightning最新版本在此项目代码上均会报错无法运行。二、预训练模型微调lama的训练全部是以配置文件.yaml的方式进行的,所以针对不同数据集的预训练模型所使用的yaml也是不同的。总体上作者是在PLACES和CelebA上进行了预训练,同时也包含了Big-Lama、Lama-fourier等多种模型细节的配置。就以在Places-Challenge效果最好的Big-Lama为例,在预训练

3D human pose estimation in video with temporal convolutions and semi-supervised training 论文理解

写在前面Facebook开源的VideoPose3D模型致力于实现准确的人体骨骼3D重建。其效果令人惊叹,只需要使用手机相机就可以实现相似的效果。而一旦技术成熟,这种人体骨骼的三维重建在很多领域将会产生颠覆性的应用。但是到目前为止,该技术还是有很多不足,其中制约该技术商业化运用的一个最大难点在于源码理解困难,模型是纯纯黑盒。因此本文将尝试理解该论文的实现方法。介绍论文一开始就阐述了核心技术,即使用2D关键点预测3D姿势,最后再将3D姿势反向投影回原先的2D关键点(半监督方法)。并且作者声称在2D关键点预测3D时使用了时间卷积架构(temporalconvolutions),让模型可以一次看见多

3D human pose estimation in video with temporal convolutions and semi-supervised training 论文理解

写在前面Facebook开源的VideoPose3D模型致力于实现准确的人体骨骼3D重建。其效果令人惊叹,只需要使用手机相机就可以实现相似的效果。而一旦技术成熟,这种人体骨骼的三维重建在很多领域将会产生颠覆性的应用。但是到目前为止,该技术还是有很多不足,其中制约该技术商业化运用的一个最大难点在于源码理解困难,模型是纯纯黑盒。因此本文将尝试理解该论文的实现方法。介绍论文一开始就阐述了核心技术,即使用2D关键点预测3D姿势,最后再将3D姿势反向投影回原先的2D关键点(半监督方法)。并且作者声称在2D关键点预测3D时使用了时间卷积架构(temporalconvolutions),让模型可以一次看见多