草庐IT

使用微软Azure的tts文本转语音服务出现java.lang.UnsatisfiedLinkError

最近,在使用微软tts文本转语音的speech服务时,项目正常整合了微软的依赖,服务也正常启动。但是只要调用微软文本转语音服务api时,就会出现如下报错。该方法是一个native方法,我以为是依赖中的dll文件没有加载到,结果检查不是。最后分析:native依赖的是底层实现的C++实现的方法,查阅资料才发现,该版本依赖的MicrosoftvisualC++Redistributable版本是2015-2019,手动安装了该版本C++库,重新启动,可以正常使用。

语音合成工具Coqui TTS安装及体验

先介绍两种免费的语音合成工具balabolka官网http://balabolka.site/balabolka.htm是一种基于微软SpeechAPI(SAPI)的免费语音合成工具,只是简单的发音合成,效果比较生硬CoquiTTS官网https://coqui.ai/是基于深度学习的语音合成软件,效果较好Windows下安装CoquiTTS安装环境要求python运行环境:https://www.python.org/downloads/windows/本文基于版本:python-3.8.10-amd64.exe,并且自行更新并设置好pip安装源pip安装CoquiTTSpipinstall

OpenAI Whisper + FFmpeg + TTS:动态实现跨语言视频音频翻译

本文作者系360奇舞团前端开发工程师摘要:本文介绍了如何结合OpenAIWhisper、FFmpeg和TTS(Text-to-Speech)技术,以实现将视频翻译为其他语言并更换声音的过程。我们将探讨如何使用OpenAIWhisper进行语音识别和翻译,然后使用FFmpeg提取视频音轨和处理视频,最后使用TTS技术生成新的语音并替换原视频的音轨。通过这种方式,我们可以为视频添加新的语言版本,同时保持其原始视觉内容。引言:现如今,全球范围内的视频内容正在迅速增长,跨语言传播和多语言支持成为了一个重要的需求。但是,手动为视频添加不同语言的字幕或配音可能非常耗时且昂贵。本文将介绍一种利用OpenAI

AI虚拟点读机,手势识别+OCR+语音TTS

哈喽,大家好。最近在研究AIGC方面的内容,好久没有更新公众号内容。今天给大家分享的是用计算机视觉技术做一个虚拟点读机。图片技术上很简单,只不过工程实现先有些细节需要注意。1.思路OpenCV读取视频流,识别食指坐标用两个食指坐标作为顶点,画一个矩形框截取矩形框,送入OCR模型识别文本用语音合成引擎TTS将文本合成语音调用音频播放模块,播放声音2.细节处理OpenCV读取视频流、mediapipe识别食指坐标,之前的分享的文章都有代码,这里就不贴了,重点说下需要处理的细节。细节1. 检测到两个食指时,需要设置一个时间间隔,这样可以给你预留一些时间来调整矩形框ifself.point_start

语音翻译项目(Whisper,opencc,Baidu翻译API,edge_tts)

定制程序开发heguannan@163.com一、项目背景国内天生有墙,海外与国内的视频平台不连通,视频搬运业务应运而生。通过国内的视频搬运到海外平台或者将海外平台视频搬运到国内,以获得平台的报酬。二、技术路线当然,可以直接采用成熟的API直接做到汉语语音英语语音。然而,大多数API都要收费,且价格不便宜。Google和Microsoft一个月只有5条音频能够试用。不能满足搬运的需求。本文通过1.开源离线模型whisper完成视频字幕的提取,可以获得视频的字幕开始时间,字幕结束时间和字幕内容2.opencc进行简体和繁体中文转换3.Baidu翻译API(每月免费100万个字符,能够满足需求)进

体验最佳的一个TTS文字转语音工具

文本转语音(TTS)技术在当今的数字世界中变得越来越流行,其应用范围从语音导航到教学视频、教育和娱乐。TTS技术允许用户将文本转换为语音,使其成为一种极其方便、高效和灵活的交流方式。个人的使用场景是抖音短视频语音配音和电影解说,尝试了很多网站和工具,基本都是付费的,而且不是很理想,直到发现了TTSmaker.com 这个网站,这是一个专业的在线语音生成器,提供全面的文字转语音服务。该网站具有用户友好的界面,无需下载任何软件即可轻松使用。您需要做的就是在网站上输入文本并生成高质量的语音文件。而且TTSMaker拥有先进的语音合成引擎,可以生成各种语言的语音,包括英语、法语、德语、日语、韩语和中文

前端文字转语音(tts+mp3拼接)

1.功能场景有时候需要在网页上面播报一段语音,而这段语音是动态的。例如收银时播报请出示付款吗,收钱成功后播报某某某为您收到金额XX元。2.思路第一种思路是前端不需要怎么动手写代码的也是最容易实现的,调用语音合成api。但是api的局限性就在于免费的没有语音包,收钱的就有点贵了,不适用于重复调用(我们系统目前规模不大,但是每天也能产生1-2万条成功的交易订单)。第二种思路是调用windows本地的tts语音合成服务,这是能免费使用且可以支持每次根据不同的内容来合成不同的语音的一个功能。第三种思路使用video元素直接组装一些零散的文字来形成一段完整的音频。这里就讲一下第二种跟第三种思路3.实现 

前端文字转语音(tts+mp3拼接)

1.功能场景有时候需要在网页上面播报一段语音,而这段语音是动态的。例如收银时播报请出示付款吗,收钱成功后播报某某某为您收到金额XX元。2.思路第一种思路是前端不需要怎么动手写代码的也是最容易实现的,调用语音合成api。但是api的局限性就在于免费的没有语音包,收钱的就有点贵了,不适用于重复调用(我们系统目前规模不大,但是每天也能产生1-2万条成功的交易订单)。第二种思路是调用windows本地的tts语音合成服务,这是能免费使用且可以支持每次根据不同的内容来合成不同的语音的一个功能。第三种思路使用video元素直接组装一些零散的文字来形成一段完整的音频。这里就讲一下第二种跟第三种思路3.实现 

微软语音合成(tts)服务申请和调用

1、申请账户:https://azure.microsoft.com/zh-cn/free/这里有个视频教程,根据此完成申请流程:https://www.bilibili.com/video/BV15a4y1W7re?vd_source=bf07f28d37849885d215dc3aea189eba申请完成后,就可以到这里申请资源:https://portal.azure.com/#home点击资源组,里面就有部署好的服务了点击这里,可以获取subscription_key,另外还有个就是位置service_region(上图就是eastasia),这两个后面会用到。2、调用服务在完成微软a

FreeSwitch采用mrcp协议对接科大讯飞asr和tts以及对话系统

最近由于有开发智能语音机器人的需求,需要使用语音识别(ASR)和文本语音转换(TTS)技术,老板指定使用科大讯飞的原子能力来提供这两项技术的支持。在语音侧,我们使用开源的软交换系统FreeSwitch来对接科大的接口。在与科大讯飞的技术支撑沟通后,确认ASR和TTS的对接采用mrcp协议,幸好FreeSwitch是支持这个协议的,下面就把整个对接的过程记录下。首先我们得搞清楚这个mrcp协议的大体交互流程,主要是如下图。mrcp一般是由客户端发起invite请求与服务器协商语音编码和mrcp通道信息,然后进行基于mrcp协议的asr信息和tts信息的交互,最后进行rtp语音流交互并返回识别信息