草庐IT

faster-whisper

全部标签

如何在你的电脑上完成whisper的简单部署

如何在你的电脑上完成whisper的简单部署(超详细教程)前言一、显卡驱动、CUDAToolKit、cuDNN的下载1.显卡驱动2.CUDAToolKit3.cuDNN的安装二、windows下安装conda三、使用scoop包管理工具完成ffmpeg安装四、whisper安装使用前言这几天正在做whisper相关的工作,github上的whisper源码,whisper相当容易安装,但当我在自己的电脑上安装使用时出现了各种各样的bug,正好需要写篇技术文档,顺便记录下安装环境中遇到的各种坑。(文章是基于windows10介绍的,不同的系统可能会有一些差异)一、显卡驱动、CUDAToolKit

[paper reading]|IC-FPS: Instance-Centroid Faster Point Sampling Module for 3D Point-base

摘要:本文说首次实现了大规模点云场景中基于点的模型的实时检测(首先指出FPS采样策略进行下采样是耗时的,尤其当点云增加的时候,计算量和推理时间快速增加;本文提出IC-FPS;包含两个模块:localfeaturediffusionbasedbackgroundpointfilter(LFDBF);CentroidInstanceSamplingStrategy(CISS);LFDBF用来排除大量的背景点,而CISS用来替代FPS;简介:早期的工作将点云投影为多视图,或体素点云,并通过3D卷积提取特征。这些方法虽然取得了很好的效果,但在将点云转换为block等中间表示时,不可避免地会丢失信息,导

[paper reading]|IC-FPS: Instance-Centroid Faster Point Sampling Module for 3D Point-base

摘要:本文说首次实现了大规模点云场景中基于点的模型的实时检测(首先指出FPS采样策略进行下采样是耗时的,尤其当点云增加的时候,计算量和推理时间快速增加;本文提出IC-FPS;包含两个模块:localfeaturediffusionbasedbackgroundpointfilter(LFDBF);CentroidInstanceSamplingStrategy(CISS);LFDBF用来排除大量的背景点,而CISS用来替代FPS;简介:早期的工作将点云投影为多视图,或体素点云,并通过3D卷积提取特征。这些方法虽然取得了很好的效果,但在将点云转换为block等中间表示时,不可避免地会丢失信息,导

经典目标检测算法:RCNN、Fast RCNN、 Faster RCNN 基本思想和网络结构介绍

目录一、目标检测的基本介绍1.1什么是目标检测?1.2目标检测算法的分类二、RCNN2.1RCNN简介2.2RCNN算法流程2.3RCNN流程图2.4RCNN框架2.5RCNN的缺点三、FastRCNN3.1FastRCNN简介3.2FastRCNN算法流程3.3FastRCNN流程图3.3.1总体流程3.3.2softmax分类器3.3.3边界框回归器(bboxregressor)3.3FastRCNN中loss的计算3.4FastRCNN框架3.5FastRCNN的缺点四、FasterRCNN4.1FasterRCNN简介4.2FasterRCNN算法流程4.2RPN网络4.2.1RPN网

经典目标检测算法:RCNN、Fast RCNN、 Faster RCNN 基本思想和网络结构介绍

目录一、目标检测的基本介绍1.1什么是目标检测?1.2目标检测算法的分类二、RCNN2.1RCNN简介2.2RCNN算法流程2.3RCNN流程图2.4RCNN框架2.5RCNN的缺点三、FastRCNN3.1FastRCNN简介3.2FastRCNN算法流程3.3FastRCNN流程图3.3.1总体流程3.3.2softmax分类器3.3.3边界框回归器(bboxregressor)3.3FastRCNN中loss的计算3.4FastRCNN框架3.5FastRCNN的缺点四、FasterRCNN4.1FasterRCNN简介4.2FasterRCNN算法流程4.2RPN网络4.2.1RPN网

闻其声而知雅意,基于Pytorch(mps/cpu/cuda)的人工智能AI本地语音识别库Whisper(Python3.10)

前文回溯,之前一篇:含辞未吐,声若幽兰,史上最强免费人工智能AI语音合成TTS服务微软Azure(Python3.10接入),利用AI技术将文本合成语音,现在反过来,利用开源库Whisper再将语音转回文字,所谓闻其声而知雅意。Whisper是一个开源的语音识别库,它是由FacebookAIResearch(FAIR)开发的,支持多种语言的语音识别。它使用了双向循环神经网络(bi-directionalRNNs)来识别语音并将其转换为文本。Whisper支持自定义模型,可以用于实现在线语音识别,并且具有高级的语音识别功能,支持语音识别中的语音活动检测和语音识别中的语音转文本。它是使用PyTor

闻其声而知雅意,基于Pytorch(mps/cpu/cuda)的人工智能AI本地语音识别库Whisper(Python3.10)

前文回溯,之前一篇:含辞未吐,声若幽兰,史上最强免费人工智能AI语音合成TTS服务微软Azure(Python3.10接入),利用AI技术将文本合成语音,现在反过来,利用开源库Whisper再将语音转回文字,所谓闻其声而知雅意。Whisper是一个开源的语音识别库,它是由FacebookAIResearch(FAIR)开发的,支持多种语言的语音识别。它使用了双向循环神经网络(bi-directionalRNNs)来识别语音并将其转换为文本。Whisper支持自定义模型,可以用于实现在线语音识别,并且具有高级的语音识别功能,支持语音识别中的语音活动检测和语音识别中的语音转文本。它是使用PyTor

二阶段目标检测网络-Faster RCNN 详解

FasterRCNN网络概述ConvlayersRPN网络Anchors生成RPN网络训练集positive/negative二分类RPN生成RoIs(ProposalLayer)RPN网络总结ROIHead/FastR-CNNRoipoolingROIHead训练ROIHead测试概念理解四类损失三个creator参考资料本文为学习笔记,部分内容参考网上资料和论文而写的,内容涉及FasterRCNN网络结构理解和代码实现原理。FasterRCNN网络概述backbone为vgg16的fasterrcnn网络结构如下图所示,可以清晰的看到该网络对于一副任意大小PxQ的图像,首先缩放至固定大小M

二阶段目标检测网络-Faster RCNN 详解

FasterRCNN网络概述ConvlayersRPN网络Anchors生成RPN网络训练集positive/negative二分类RPN生成RoIs(ProposalLayer)RPN网络总结ROIHead/FastR-CNNRoipoolingROIHead训练ROIHead测试概念理解四类损失三个creator参考资料本文为学习笔记,部分内容参考网上资料和论文而写的,内容涉及FasterRCNN网络结构理解和代码实现原理。FasterRCNN网络概述backbone为vgg16的fasterrcnn网络结构如下图所示,可以清晰的看到该网络对于一副任意大小PxQ的图像,首先缩放至固定大小M