草庐IT

OpenAI-whisper

全部标签

最新消息:OpenAI GPT Store 正式上线,GPTs 应用商店来了!

原文链接https://openaigptguide.com/gpt-store-and-chatgpt-team/OpenAI推出的两款新产品和服务:GPTStore和ChatGPTTeam,提供了许多全新的解决方案和功能,旨在帮助用户更轻松地使用和构建GPT工具,同时也增加了公司的收入来源。GPTStore是一个全新的在线平台,允许用户创建和分享自定义ChatGPT助手,从而满足他们的特定需求。该产品旨在帮助用户更容易地构建自己的ChatGPT助手,因此,用户可以轻松地调整模型的参数以适应不同的用途。GPTTeam则是一个订阅计划,主要面向规模较小、以自助服务为导向的团队,如小型公司或团队

最新消息:OpenAI GPT Store 正式上线,GPTs 应用商店来了!

原文链接https://openaigptguide.com/gpt-store-and-chatgpt-team/OpenAI推出的两款新产品和服务:GPTStore和ChatGPTTeam,提供了许多全新的解决方案和功能,旨在帮助用户更轻松地使用和构建GPT工具,同时也增加了公司的收入来源。GPTStore是一个全新的在线平台,允许用户创建和分享自定义ChatGPT助手,从而满足他们的特定需求。该产品旨在帮助用户更容易地构建自己的ChatGPT助手,因此,用户可以轻松地调整模型的参数以适应不同的用途。GPTTeam则是一个订阅计划,主要面向规模较小、以自助服务为导向的团队,如小型公司或团队

开源 AI 新秀崛起:Bittensor 更像是真正的“OpenAI”

强大的人工智能正在飞速发展,而完全由OpenAI、Midjourney、Google(Bard)这样的少数公司控制AI不免让人感到担忧。在这样的背景下,试图用创新性解决方案处理人工智能中心化问题、权力集中于少数公司的Bittensor,可谓是当下Web3领域中AI模型类别的爆款项目,其代币TAO的市场表现也吸引了行业的普遍关注。在AI的数据、算法、算力三大核心要素中,Bittensor瞄准了算法方向,通过区块链网络和激励机制,来对不同的算法进行调度和筛选,从而让AI领域形成一个自由竞争、知识共享的算法(模型)市场。目前,Bittensor已在主网上运行一年多的时间。简单来说,Bittensor

使用推测解码 (Speculative Decoding) 使 Whisper 实现 2 倍的推理加速

OpenAI推出的Whisper是一个通用语音转录模型,在各种基准和音频条件下都取得了非常棒的结果。最新的large-v3模型登顶了OpenASR排行榜,被评为最佳的开源英语语音转录模型。该模型在CommonVoice15数据集的58种语言中也展现出了强大的多语言性能,在42种语言上的单词错误率(WER)低于30%。尽管转录准确度非常优秀,但推理速度非常缓慢。即使利用flashattention、半精度和分块等优化推理技术,1小时长度的音频在16GBT4GPU上也需要超过6分钟的转录时间。在本文中,我们将演示如何运用推测解码将Whisper的推理时间缩减2倍,同时在数学上确保完全取得与原模型相

使用推测解码 (Speculative Decoding) 使 Whisper 实现 2 倍的推理加速

OpenAI推出的Whisper是一个通用语音转录模型,在各种基准和音频条件下都取得了非常棒的结果。最新的large-v3模型登顶了OpenASR排行榜,被评为最佳的开源英语语音转录模型。该模型在CommonVoice15数据集的58种语言中也展现出了强大的多语言性能,在42种语言上的单词错误率(WER)低于30%。尽管转录准确度非常优秀,但推理速度非常缓慢。即使利用flashattention、半精度和分块等优化推理技术,1小时长度的音频在16GBT4GPU上也需要超过6分钟的转录时间。在本文中,我们将演示如何运用推测解码将Whisper的推理时间缩减2倍,同时在数学上确保完全取得与原模型相

中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽

君不言语音识别技术则已,言则必称Whisper,没错,OpenAi开源的Whisper确实是世界主流语音识别技术的魁首,但在中文领域,有一个足以和Whisper相颉顽的项目,那就是阿里达摩院自研的FunAsr。FunAsr主要依托达摩院发布的Paraformer非自回归端到端语音识别模型,它具有高精度、高效率、便捷部署的优点,支持快速构建语音识别服务,最重要的是,FunASR支持标点符号识别、低语音识别、音频-视觉语音识别等功能,也就是说,它不仅可以实现语音转写,还能在转写后进行标注,一石二鸟。FunAsr和Whisper对比Mediumvsspeech_paraformer首先配置好Pyth

中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽

君不言语音识别技术则已,言则必称Whisper,没错,OpenAi开源的Whisper确实是世界主流语音识别技术的魁首,但在中文领域,有一个足以和Whisper相颉顽的项目,那就是阿里达摩院自研的FunAsr。FunAsr主要依托达摩院发布的Paraformer非自回归端到端语音识别模型,它具有高精度、高效率、便捷部署的优点,支持快速构建语音识别服务,最重要的是,FunASR支持标点符号识别、低语音识别、音频-视觉语音识别等功能,也就是说,它不仅可以实现语音转写,还能在转写后进行标注,一石二鸟。FunAsr和Whisper对比Mediumvsspeech_paraformer首先配置好Pyth

[python]基于faster whisper实时语音识别语音转文本

语音识别转文本相信很多人都用过,不管是手机自带,还是腾讯视频都附带有此功能,今天简单说下:fasterwhisper地址:https://github.com/SYSTRAN/faster-whisperhttps://link.zhihu.com/?target=https%3A//github.com/SYSTRAN/faster-whisper实现功能:从麦克风获取声音进行实时语音识别转文本代码仅仅用了40多行即可实现实时语音转文本功能封装成类调用十分简单,代码如下:fwm=FasterWhisperManager()fwm.start()whileTrue:time.sleep(0.2

OpenAI大呼冤枉,称《纽约时报》说法片面,吴恩达也为其发声

2023年年底,《纽约时报》拿出了强有力的证据起诉微软与OpenAI。根据多家科技公司的首席法律顾问CeciliaZiniti的分析,《纽约时报》获胜的概率极大。机器学习领域著名学者吴恩达针对这件事连发两条推文说明了自己的观点。在他的第一条推文中,表达对OpenAI和微软的同情。他怀疑很多重复的文章实际是通过类似于RAG(检索增强生成)的机制产生的,而非仅仅依赖模型训练的权重。来源:https://twitter.com/AndrewYNg/status/1744145064115446040不过,吴恩达的推测被也遭到了反驳。纽约大学教授GaryMarcus表示在视觉生成领域的「抄袭」和RAG

从Google Gemini到OpenAI Q*:生成式AI研究领域全面综述

近日,来自澳大拉西亚理工学院、梅西大学和皇家墨尔本理工大学等机构的研究人员进行了一项全面的综述,深入探讨了生成式AI不断演变的格局。研究特别关注了混合专家模型(MoE)、多模态学习的变革性影响,以及对通用人工智能(AGI)的推测进展。论文地址:https://arxiv.org/abs/2312.10868- 严格审视了生成式人工智能(AI)的当前状态和未来轨迹,探索了像谷歌的Gemini和期待中的OpenAIQ*项目这样的创新是如何重塑研究优先事项和在各个领域的应用,包括对生成式AI研究分类法的影响分析。- 评估了这些技术的计算挑战、可扩展性和现实世界的影响,同时强调了它们在推动像医疗健康、