草庐IT

faster-whisper-webui

全部标签

Faster-git/lecture 01

第一章Git简介1.1版本控制1.1.1什么是版本控制系统?版本系统能够帮助我们记录代码的变化,并且可以直接恢复到某个版本的代码,不需要一直操作ctrl+z,我们可以比较文件的变化细节,查出最后是谁修改了哪个地方,从而找出导致怪异问题出现的原因,又是谁在何时报告了某个功能缺陷等等。1.1.2集中式版本控制vs分布式版本控制系统现有的版本控制系统主要有两种形式:集中式和分布式。集中式版本控制系统:集中式版本库集中存放于一个单一的中央服务器的,保存所有文件的修订版本,需要在联网的情况下才能工作。集中式版本控制有一个很致命的问题:中央服务器的单点故障。如果宕机一小时,那么在这一小时内,谁都无法提交更

记录Stable-Diffusion-Webui 在Windows11的Anaconda环境下的避坑安装

#记录工作,工作复盘仅作记录,未尽之处请补充,谢谢!电脑配置情况大致记录如下,请参考:MSI移动工作站,64G内存,4GB显存一、安装前准备:阅读文档,明确软件依赖和安装要求:在用Anaconda环境下安装stable-diffusion-webui之前,电脑上先要安装有以下软件:1、Anaconda首先安装 Anaconda,本处用于可窗口化的管理虚拟环境和方便解决环境中包的依赖问题可以参考本站大神的详细文章教程:Anaconda超详细安装教程(Windows环境下)_conda安装-CSDN博客https://blog.csdn.net/fan18317517352/article/det

whisper执行ffmpeg时,报错: hp, ht, pid, tid = _winapi.CreateProcess(executable, args, 系统找不到指定的文件。

最近在用openai/whisper-small进行语音转文字任务时,想着自己下载模型在本地离线跑,但是遇到了一下问题:importwhisperimportwaveimportnumpyasnpdownload_root=r"\whisper-small"#模型路径Automati_file=r"20230302152850300.mp3"#音频路径model=whisper.load_model("small",download_root=download_root)result=model.transcribe(Automati_file,language="zh",fp16=False

[论文阅读]YOLO9000:Better,Faster,Stronger

摘要我们引入了YOLO9000,一个可以检测超过9000种类别的先进的实时目标检测系统。首先我们提出了多种yolo检测方法的提升方式,既新颖又参考了之前的工作。改进后的模型,YOLOV2在标准检测任务例如PASCALVO和COCO上都取得了领先。使用一个新颖的多尺度的训练方法,同一个YOLOV2模型可以在不同尺寸下行,提供了一种速度和准确率之间的简单的平衡。在67fps下,yolov2在VOC2007上取得了78.6的mAP,在40fps下,yolov2取得了78.6的mAP,在超越现有的最先进的方法例如使用了ResNet的FasterR-CNN和SSD的同时运行速度显著的快。最后我们提出了一

AIGC: 关于ChatGPT中基于Whisper模型实现音频转文本

概述到目前,GPT只能去接收文本的输入,但是在现实的生活当中,会有语音的需求GPT也有相关的能力接入,我们就需要一个能够将语音内容转换成文本的能力当然其他第三方的软件或者接口也是支持这个功能在OpenAI有一个语音转文本的模型叫做whisper在OpenAI它的官方网站当中,在左侧可以看到有一个Audio关于音频的API文档:https://platform.openai.com/docs/api-reference/audio/create-transcription接口:https://api.openai.com/v1/audio/transcriptions可以看到它的参数file参数

本地部署 text-generation-webui

本地部署text-generation-webui0.背景1.text-generation-webui介绍2.克隆代码3.创建虚拟环境4.安装pytorch5.安装CUDA运行时库6.安装依赖库7.启动WebUI8.访问WebUI9.OpenAI兼容API0.背景一直喜欢用FastChat本地部署大语言模型,今天试一试text-generation-webui这个项目。1.text-generation-webui介绍text-generation-webui适用于大型语言模型的GradioWebUI。支持transformers、GPTQ、AWQ、EXL2、llama.cpp(GGUF)、

C#使用whisper.net实现语音识别(语音转文本)

介绍github地址:https://github.com/sandrohanea/whisper.netWhisper.net.SpeechtotextmadesimpleusingWhisperModels模型下载地址:https://huggingface.co/sandrohanea/whisper.net/tree/main/classic效果测试通过环境:vs2019.NETFramework4.7.2使用ggml-tiny.bin模型文件CPU推理速度客观,最重要是官方都是需要vs2022才行,我这边直接在vs2019就可以直接跑。视频演示地址:whisper.net将语音转成文

TPAMI 2023:Constructing Stronger and Faster Baselines for Skeleton-based Action Recognition

ConstructingStrongerandFasterBaselinesforSkeleton-basedActionRecognitionAbstract1.INTRODUCTION2.RELATEDWORK2.1EfficientModels3.PRELIMINARYTECHNIQUES3.1DataPreprocessing3.2SeparableConvolution4EFFICIENTGCN4.1ModelArchitecture4.2BlockDetails4.3ScalingStrategy4.4SpatialTemporalJointAttention4.5Discussi

openai-whisper 的语言模型下载地址

        看了好几个文章没找到下载地址,翻了下python该模块的源码找到了~~其实要是自动下载好使的话就不需要手动下载了~看自己情况而定吧,本人自动下载没好使~~{"tiny.en":"https://openaipublic.azureedge.net/main/whisper/models/d3dd57d32accea0b295c96e26691aa14d8822fac7d9d27d5dc00b4ca2826dd03/tiny.en.pt","tiny":"https://openaipublic.azureedge.net/main/whisper/models/65147644

stable-diffusion-webui的逐步部署教程

  大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳,不仅形成深入且独到的理解,而且能够帮助新手快速入门。  本文主要介绍了stable-diffusion-webui的逐步部署教程,希望能对使用StableDiffusion的同学们有所帮助。文章目录1.前言2.逐步部署教程2.1创建Python环境2.2安装依赖库2.3运行代码1.前言  最近有几个同学在