【AI视野·今日Sound 声学论文速览第四期】Thu, 21 Apr 2022

hitrjj 2023-04-13 原文

AI视野·今日CS.Sound 声学论文速览
Thu, 21 Apr 2022
Totally 7 papers
👉上期速览✈更多精彩请移步主页

Interesting:

📚基于生成流的音源分离, (from University of Rocheste)

数据集方法对比：

Daily Sound Papers

Clotho-AQA: A Crowdsourced Dataset for Audio Question Answering
Authors Samuel Lipping, Parthasaarathy Sudarsanam, Konstantinos Drossos, Tuomas Virtanen
音频问答 AQA 是一项多模式翻译任务，系统分析音频信号和自然语言问题，以生成理想的自然语言答案。在本文中，我们介绍了 Clotho AQA，这是一个音频问答数据集，由 1991 个音频文件组成，每个文件的持续时间在 15 到 30 秒之间，选自 Clotho 数据集 1 。对于每个音频文件，我们使用 Amazon Mechanical Turk 通过众包收集六个不同的问题和相应的答案。问题和答案由不同的注释者生成。在每个音频的六个问题中，每个问题有两个问题设计为有是和否作为答案，而其余两个问题有其他单字答案。对于每个问题，我们从三个不同的注释者那里收集答案。我们还提出了两个基线实验来描述我们的数据集在 AQA 任务中的使用，一个基于 LSTM 的多模态二元分类器用于是或否类型的答案，一个基于 LSTM 的多模态多类分类器用于 828 个单字答案。二元分类器的准确度为 62.7，多类分类器的前 1 准确度为 54.2，前 5 准确度为 93.7。

Exploration strategies for articulatory synthesis of complex syllable onsets
Authors Daniel R. van Niekerk, Anqi Xu, Branislav Gerazov, Paul K. Krug, Peter Birkholz, Yi Xu
高质量的发音语音合成在语音科学和技术中有许多潜在的应用。然而，开发从语言规范到发音手势的适当映射既困难又耗时。在本文中，我们构建了一个基于优化的框架，作为在没有人工干预的情况下学习这些映射的第一步。

Improving Self-Supervised Speech Representations by Disentangling Speakers
Authors Kaizhi Qian, Yang Zhang, Heting Gao, Junrui Ni, Cheng I Lai, David Cox, Mark Hasegawa Johnson, Shiyu Chang
语音中的自我监督学习涉及在大规模无注释语音语料库上训练语音表示网络，然后将学习到的表示应用于下游任务。由于语音中 SSL 学习的大多数下游任务主要集中在语音中的内容信息上，因此最理想的语音表示应该能够从内容中分离出不需要的变化，例如说话者的变化。然而，解开说话人是非常具有挑战性的，因为去除说话人信息也很容易导致内容丢失，而后者的损害通常远远超过前者的好处。在本文中，我们提出了一种新的 SSL 方法，该方法可以在不严重丢失内容的情况下实现扬声器解缠结。我们的方法改编自 HuBERT 框架，并结合了解耦机制来规范教师标签和学习表示。

Detecting Unintended Memorization in Language-Model-Fused ASR
Authors W. Ronny Huang, Steve Chien, Om Thakkar, Rajiv Mathews
端到端 E2E 模型通常伴随着语言模型 LM 通过浅层融合来提高其整体质量以及对稀有词的识别。同时，之前的几项工作表明，LM 容易无意中记住训练数据中稀有或独特的序列。在这项工作中，我们设计了一个框架来检测随机文本序列的记忆，当一个人只有黑盒查询访问 LM 融合语音识别器时，我们在 LM 训练数据中称为金丝雀，而不是直接访问 LM。在与 Transformer LM 融合的生产级 Conformer RNN T E2E 模型上，我们展示了从 300M 示例的 LM 训练数据中检测单个出现的金丝雀的记忆是可能的。

Exploring Continuous Integrate-and-Fire for Efficient and Adaptive Simultaneous Speech Translation
Authors Chih Chiang Chang, Hung yi Lee
同步语音翻译 SimulST 是一项具有挑战性的任务，旨在在观察到完整输入之前直接翻译流式语音。 SimulST 系统通常包括两个重要组件：聚合语音信息的预决策和决定读取或写入的策略。虽然最近的工作提出了多种策略来改进预决策，但它们大多采用固定等待 k 策略。适应性政策很少被探索。我们建议使用 Continuous Integrate 和 Fire CIF 对自适应策略进行建模。在我们提出的模型中，CIF 不仅负责聚合语音信息，还决定何时读取或写入。为了使 CIF 适应 SimulST 任务，我们提出了两个修改：令牌级别的数量损失或无限回溯注意。

Cross-stitched Multi-modal Encoders
Authors Karan Singla, Daniel Pressel, Ryan Price, Bhargav Srinivas Chinnari, Yeon Jun Kim, Srinivas Bangalore
在本文中，我们提出了一种用于多模态语音和文本输入的新颖架构。我们使用多头交叉模态注意力结合预训练的语音和文本编码器，并对目标问题进行联合微调。由此产生的架构可用于连续的标记级别分类或作用于同时文本和语音的话语级别预测。由此产生的编码器有效地捕获声学韵律和词汇信息。我们将基于多头注意力的融合对多模态话语级别分类的好处与预汇集的、模态特定表示的简单串联进行比较。

Music Source Separation with Generative Flow
Authors Ge Zhu, Jordan Darefsky, Fei Jiang, Anton Selitskiy, Zhiyao Duan
多年来，配对混合信号和源信号的音乐源分离已经取得了实质性进展。但是，此设置高度依赖大量配对数据。仅源监督将学习从混合到特定源的映射的过程解耦为两阶段范式源建模和分离。最近仅在源代码监督下的系统要么在合成玩具实验中取得良好的表现，要么在音乐分离任务中表现有限。在本文中，我们利用基于流的隐式生成器来训练音乐源先验和基于似然的目标来分离音乐混合。实验表明，在歌声和音乐分离任务中，我们提出的系统在完整的监督系统之一中取得了可竞争的结果。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

视野 middot font xff0c xff0 Sound audio 音频学习音视频学习音频分离

有关【AI视野·今日Sound 声学论文速览第四期】Thu, 21 Apr 2022的更多相关文章

ruby - 如何更快地解决 project euler #21？ - 2
原始问题Letd(n)bedefinedasthesumofproperdivisorsofn(numberslessthannwhichdivideevenlyinton).Ifd(a)=bandd(b)=a,whereab,thenaandbareanamicablepairandeachofaandbarecalledamicablenumbers.Forexample,theproperdivisorsof220are1,2,4,5,10,11,20,22,44,55and110;therefored(220)=284.Theproperdivisorsof284are1,2,
映宇宙2022年营收63亿元：同比下降三成，毛利率提升4.3个百分点 - 2
3月26日，映宇宙（HK:03700，即“映客”）发布截至2022年12月31日的2022年度业绩财务报告。财报显示，映宇宙2022年的总营收为63.19亿元，较2021年同期的91.76亿元下降31.1%。2022年，映宇宙的经营亏损为4698.7万元，2021年同期则为净利润4.57亿元；期内亏损（净亏损）为1.68亿元，2021年同期的净利润为4.33亿元；非国际财务报告准则经调整净利润为3.88亿元，2021年同期为4.82亿元，同比下降19.6%。映宇宙在财报中表示，收入减少主要是由于行业竞争加剧，该集团对旗下产品采取更为谨慎的运营策略以应对市场变化。不过，映宇宙的毛利率则有所提升
酷早报：10月21日全球Web3加密行业重大资讯大汇总 - 2
2022年10月21日星期五【数据指标】加密货币总市值：$0.95万亿BTC市值占比：38.51%恐慌贪婪指数：23极度恐慌【今日快讯】1、【政讯】1.1.1、美联储布拉德：市场预期美联储11月会加息75个基点1.1.2、美联储哈克：将维持加息一段时间1.2、美国10年期国债收益率触及4.197%，为2008年6月以来最高1.3、法国数字转型部长：政府将专注于DeFi和Web31.4、巴西ATM机将于11月3日起支持USDT1.5、美众议院副议长将于11月初加入a16zCrypto担任政府事务主管1.6、香港数字资产托管机构FirstDigitalTrust首席执行官：香港仍是安全
未来的趋势————以ChatGPT为标杆的AI对生活的影响是巨大的 - 2
文章目录前言1.AI的发展历程2.我是如何接触到人工智能的概念和产品的3.对于ChatGPT的一点看法4.AI对大学毕业生的职业发展的利与弊5.对于AI的思考和问题前言随着ChatGPT的爆火，生成式AI，大模型的人工智能被越来越多的人注意到，同时他也带来了许多问题。本文将对几方面进行探讨。1.AI的发展历程远古时期在公元前第一个千禧年，中国，印度和希腊哲学家都提出了一些推理的研究理论，比如亚里士多德（Aristotle）进行了演绎推理三段论的完整分析，欧几里得（Euclid）所著Elements是一种形式推理的模型，MuḥammadibnMūsāal-Khwārizmī,发明了代数学，即我们
焕新古文化传承之路，AI为古彝文识别赋能 - 2
目录1古彝文与古典保护2古文识别的挑战2.1西文与汉文OCR2.2古彝文识别难点3合合信息：古彝文保护新思路3.1图像矫正3.2图像增强3.3语义理解3.4工程技巧4总结1古彝文与古典保护彝文指的是云南、贵州、四川等地的彝族人使用的文字，区别于现代意义上的彝文，古彝文指的是在民间流通使用的原生态彝文，多达87046字。古彝文的起源距今至少数千年，是世界上最古老的文字之一。对古彝文字集研究有助于理解尚未被翻译成汉文、用字尚未规范化的古籍，更深层、透彻地作用于传统文化保护。古彝文字义对照图（网络资料+邵文苑供图）古籍是不可再生的宝贵资源，应当得到妥善保护。中国的古籍在历史上迭经水火兵燹等自然灾害、
IDEA 2022 创建 Spring Boot 项目详解 - 2
如何用IDEA2022创建并初始化一个SpringBoot项目？目录如何用IDEA2022创建并初始化一个SpringBoot项目？0. 环境说明1. 创建SpringBoot项目 2.编写初始化代码0. 环境说明IDEA2022.3.1JDK1.8SpringBoot1. 创建SpringBoot项目打开IDEA，选择NewProject创建项目。填写项目名称、项目构建方式、jdk版本，按需要修改项目文件路径等信息。选择springboot版本以及需要的包，此处只选择了springweb。此处需特别注意，若你使用的是jdk1
2022年10月23日周赛ZZULIOJ - 2
文章目录问题B:芝华士威士忌和他的小猫咪们代码&注释问题C:愿我的弹雨能熄灭你们的痛苦代码注释问题D:猜糖果游戏代码注释问题E:有趣的次方代码注释问题F:这是一个简单题代码&注释问题G:打印矩阵代码注释问题H:scz的简单考验代码注释问题I:完美区间代码&注释问题J:是狂热的小迷妹一枚吖~代码&注释2022年10月23日周赛ZZULIOJ问题B:芝华士威士忌和他的小猫咪们时间限制:1Sec内存限制:128MB题目描述芝华士威士忌很喜欢带着他的猫咪们一块跑着玩。但是小猫咪们很懒，只有在离他y米以内才愿意和他一块跑。这天他在坐标为x的位置，他想和他的猫咪们一块跑着玩。有n个小猫咪，第i个小猫咪在坐
【华为OD机试真题 java、python、c++】荒地电站建设【2022 Q4 100分】（100%通过+复盘思路） - 2
代码请进行一定修改后使用，本代码保证100%通过率，本题目提供了java、python、c++三种代码。复盘思路在文章的最后题目描述祖国西北部有一片大片荒地，其中零星的分布着一些湖泊，保护区，矿区;整体上常年光照良好，但是也有一些地区光照不太好。某电力公司希望在这里建设多个光伏电站，生产清洁能源对每平方公里的土地进行了发电评估，其中不能建设的区域发电量为0kw，可以发电的区域根据光照，地形等给出了每平方公里年发电量x千瓦。我们希望能够找到其中集中的矩形区域建设电站，能够获得良好的收益。输入描述第一行输入为调研的地区长，宽，以及准备建设的电站【长宽相等，为正方形】的边长最低要求的发电量之后每行为
玩客云刷机（2022-3-19亲测） - 2
https://cloud.189.cn/t/BJbYreYbmUj2(访问码:djz6)（网盘2022-4-1更新）一、刷入armbian。1.1使用AmlBurnTool软件烧录首选底包至固件。烧录完成后断开玩客云电源备用。(靠近hdmi的那个口子。)1.2使用WIn32diskimager软件将emmc固件写入U盘。1.3写入成功后，先将U盘插入玩客云靠近网线接口端的USB口，再接入电源。玩客云通电后指示灯会先亮绿灯，再亮蓝灯，红蓝闪烁，最后蓝灯常亮。等到确定蓝灯常亮后，再拔掉U盘、电源。(最好蓝灯常亮后，启动一次玩客云，看看ssh是否正常。)1.4使用WIn32diskimager写入
AiBote 2022 新研发的自动化框架，支持 Android 和 Windows 系统。速度非常快 - 2
Ai-Bot基于流行的Node.js和JavaScript语言的一款新自动化框架，支持Windows和Android自动化。1、Windowsxpath元素定位算法支持支持Windows应用、.NET、WPF、Qt、Java和Electron客户端程序和ie、edgechrome浏览器2、Android支持原生APP和H5界面，元素定位速度是appium十倍，无线远程自动化操作多台安卓设备3、基于opencv图色算法，支持找图和多点找色，1080*2340全分辨率找图50MS以内4、内置免费OCR人工智能技术，无限制获取图片文字和找字功能。5、框架协议开源，除官方node.jsSDK外，用户可

【AI视野·今日Sound 声学论文速览 第四期】Thu, 21 Apr 2022

Interesting:

Daily Sound Papers

有关【AI视野·今日Sound 声学论文速览 第四期】Thu, 21 Apr 2022的更多相关文章

随机推荐

【AI视野·今日Sound 声学论文速览第四期】Thu, 21 Apr 2022

有关【AI视野·今日Sound 声学论文速览第四期】Thu, 21 Apr 2022的更多相关文章