草庐IT

OpenAI-whisper

全部标签

OpenAI不能访问有什么方法解救呢?试试这方法吧

最近发现国内不挂代理是不能访问到openAI的接口的,为了解决这个问题,我一直在github上需在解决方案,今天终于被我找到一个大神开源了一个解决方案。下面就来看看如何做吧。整个项目的代码很简单只有几行代码:{"rewrites":[{"source":"/:match*","destination":"https://api.openai.com/:match*"}]}该项目是借助Vercel平台做的一个反代理。部署要求需要一个域名,没有的话可以在阿里云上买一个几块钱一年的.部署步骤1、打开项目地址,点一键部署按钮2、用Github登录Vercel,没有Github账户的去注册一个3、登录之

运行Whisper笔记(1)

最近chatGPT很火,就去逛了一下openai的github项目。发现了这个项目。这个项目可以识别视频中的音频,转换出字幕。带着一颗好奇的心就尝试自己去部署玩一玩跟着这篇文章一步步来进行安装,并且跟着这篇文章解决途中遇到的问题。途中还会遇到几个问题:总结一下:1、下载cuDNN时会提示叫你登录Navia的账号,我登录的时候发现内地、香港、新加坡的IP登录不了nvdia-develop的官网,换成美国IP则很顺利。这。。。。2、Ptyhton版本别使用太高的,防止后续pip找不到相关的版本。我原本使用的3.11,后面因为提示找不到相应的版本,换成3.10解决3、pip运行whisper还会提示

【报告解析】OpenAI Sora视频模型官方报告全解析 | 效果,能力以及基本原理

省流版1核心数据处理将视频数据整合成一个一个的Patch,方便统一训练数据,利用扩散Transformer架构2功能效果除了可以实现基础的文生视频外,实际上还有非常惊艳的视频延展,视频编辑,视频连接等多种功能,具体可以看官网的demo3模型涌现了3D一致性,远距离物体相关性等等卓越的能力文章目录1主要内容概述2统一视频数据为patches3功能效果展示3.1文本输入生成视频3.2图片和文本共同输入3.3视频延展3.4视频到视频的编辑3.5连接视频3.6生成图片4涌现的能力4.13D一致性4.2远距离相关性和物体持久性4.3与世界互动4.4模拟数字世界1主要内容概述摘要中指出,OpenAI探索了

下个爆点人形机器人?OpenAI、英伟达、贝索斯向同一家公司投了6.7亿刀

生成式AI的竞争如火如荼,各家科技公司和机构也没有忘记投资下一个热点。本周五,彭博社援引消息人士的话报道称,亚马逊创始人杰夫・贝索斯、英伟达和其他大型科技公司正在不约而同地投资初创公司FigureAI,该公司旨在开发人形机器人。该公司的产品Figure01,据称是世界上第一个具有商业可行性的自主人形机器人,身高1.5米,体重60公斤,可承载20公斤货物,采用电机驱动。它的可工作时长是5小时,行走速度每秒1.2米,可以说很多指标已经接近人类。这款身形精干的人形机器人短短12个月内就从零开始学会了像人一样行走,不用系绳,抓握等动作自然准确。上个月,该公司展示了Figure01使用咖啡机的视频。练习

下一个OpenAI来了?Mistral超大杯模型直逼GPT-4,93年创始人6人公司被微软认领

下一个OpenAI来了?开源社区的另一个中心MistralAI,刚刚发布了最强力的旗舰模型MistralLarge,性能直接对标GPT-4!(但可惜的是没有开源)MistralLarge具备卓越的逻辑推理能力,能够处理包括文本理解、转换以及代码生成在内的复杂多语言任务。在众多主流基准测试中,MistralLarge力压Anthropic的Claude2和谷歌的GeminiPro,成绩仅次于GPT-4!LLM领域,格局再次改变。同时,就在今天,AI圈又一重磅消息曝出:继OpenAI之后,微软将Mistral也纳入麾下!Mistral从诞生之初,就充满传奇的光环。成立4周,6人团队,7页PPT,8

选择最适合数据的嵌入模型:OpenAI 和开源多语言嵌入的对比测试

OpenAI最近发布了他们的新一代嵌入模型embeddingv3,他们将其描述为性能最好的嵌入模型,具有更高的多语言性能。这些模型分为两类:较小的称为text-embeddings-3-small,较大且功能更强大的称为text-embeddings-3-large。这些模型的设计和训练方式的信息披露得很少,模型只能通过付费API访问。所以就出现了很多开源的嵌入模型但是这些开源的模型与OpenAI闭源模型相比如何呢?本文将这些新模型与开源模型的性能进行实证比较。我们将创建一个数据检索工作流,在这个工作流中,必须根据用户查询找到语料库中最相关的文档。我们的语料库是欧洲人工智能法案,该法案目前处于

48个OpenAI全新发布的Sora文生视频!

本文将为你分享48个由Sora生成的“文生视频”。我们已将所有视频打包上传到了百度网盘中供你下载!什么是Soar?Sora是OpenAI全新发布的一个“文生视频”工具,也就是说它可以根据你提供的文本创作生成视频。就像ChatGPT可以提高写作效率一样,Sora可以大大提高视频制作的效率。OpenAI在官网声称,他们的目的是试图让Sora理解并模拟我们的现实世界,从而解决与现实世界的交互问题。咦,模拟现实世界并与之进行交互,这不就是元宇宙要做的事吗?什么是元宇宙?以下是ChatGPT的解释。元宇宙(Metaverse)是一个虚拟的、数字化的世界,由计算机生成的三维环境和互动体验组成。它类似于虚拟

OpenAI视频生成模型Sora背后的技术及其深远的影响

前言Sora的视频生成技术在保真度、长度、稳定性、一致性、分辨率和文字理解等方面都达到了当前最优水平。其核心技术包括使用视觉块编码将不同格式的视频统一编码成Transformer可训练的嵌入向量,以及类似于扩散过程的UNet方法进行降维和升维的加噪与去噪操作。通过构建足够大的模型,使其具备了智能的涌现能力,例如在一定程度上理解真实世界的物理影响和因果关系。与其他视频生成模型不同,OpenAI采用了一种“大”模型的方法,即准备大量的视频数据,使用多模态模型对其进行标注,并将视频编码成统一的视觉块嵌入。然后,通过足够大的网络架构、训练批次和算力,使模型能够对大量训练数据进行全局拟合,从而更好地理解

利用python+whisper生成视频字幕文件

文章目录前言1.本地环境2.安装所需要的库3.导入相关库4.获取指定路径下的所有视频文件5.导入模型进行音频识别6.将识别结果转换为srt字幕文件7.完成代码前言最近在看一些网课,由于没有字幕看着非常费劲,需要全神贯注的去听。网上很多生成字幕的网站都需要收费,想用某映但是它的智能字幕不允许上传大于两小时的视频。基于这个问题就想着用openai开源的whisper来试试,最终整体的效果还行,硬件不行识别的有点慢,准确率不算高,但是配合音频基本能理解是什么意思,主要看视频更加轻松了。注:由于我有很多视频,所以才用python自己写脚本批量处理,如不需要或者觉得写脚本麻烦可以看看WhisperDes

OpenAI视频生成Sora技术简析

基本介绍Sora是春节期间OpenAI发布的产品,主要是通过文字描述生成视频,通过大规模视频数据训练而成的生成模型,当前还没开放试用。官方发布的技术报告:https://openai.com/research/video-generation-models-as-world-simulators基本思想本质上还是一个扩散模型框架,与之前图像生成类似,只是视频相当于图像加了时间序列,增加了一个时间维度。大致可以想象成通过解噪音,生成了很多图,然后在时间维度上叠加,得到生成的视频。但实际情况并不是一张张图生产后再拼凑成视频。DiT网络在网络结构方面,相比于传统的扩散模型网络,Sora中了Diffu