OpenAI-whisper

OpenAI王炸Sora模型技术报告详解

前言2024年2月16日凌晨,OpenAI发布了首个视频生成模型Sora,效果炸裂,虽然不是大家期待已久的GPT-5,但意义我觉得不亚于一年前发布的GPT-4。对比AI视频里Runway、Pika、Google和Meta这些主流玩家，Sora的特别之处在于：能够生成具有多个角色、特定类型动作和主题背景的复杂视频，时长为一分钟的高保真视频。可以在单个生成的视频中创建多个镜头，模拟复杂的摄像机运镜，同时准确地保持角色和视觉风格。最重要的是，它不仅理解用户在prompt中要求的内容，还能自己理解这些事物在现实世界中的存在方式。以下是本篇文章正文内容为报告翻译版，Sora详细的技术报告刚OpenAI发

Sora专辑|OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析

▌01. OpenAISora视频生成模型技术报告总结 •不管是在视频的保真度、长度、稳定性、一致性、分辨率、文字理解等方面，Sora都做到了SOTA（当前最优）。•技术细节写得比较泛（防止别人模仿）大概就是用视觉块编码（visualpatch）的方式，把不同格式的视频统一编码成了用transformer架构能够训练的embeding，然后引入类似diffusion的unet的方式做在降维和升维的过程中做加噪和去噪，然后把模型做得足够大，大到能够出现涌现能力。•简单来说，在别家做视频模型的时候还是基于“小”模型的思路（基于上一帧预测下一帧，并且用文字或者笔刷遮罩做约束）的时候，OpenAI

OpenAI ChatGpt Gpt-3.5-turbo

Q&A第一个Sampleimportopenaiopenai.api_key="sk-XXXX-key需要在https://openai.com/注册后获取"completion=openai.ChatCompletion.create(model="gpt-3.5-turbo",messages=[{"role":"user","content":"2023年在上海哪里赏樱花？"}])print(completion["choices"][0]["message"]["content"].strip())返回结果FAQ第一个Sample首先安装OpenAI、GPTIndex和Gradio库p

语音转字幕：Whisper模型的功能和使用

🍁作者：知识浅谈，CSDN签约讲师，CSDN博客专家，华为云云享专家，阿里云专家博主📌擅长领域：全栈工程师、爬虫、ACM算法💒公众号：知识浅谈🤞语音转字幕：Whisper模型的功能和使用🤞使用到的工具和模型:公众号知识浅谈回复whisper获取🎈使用方法模型下载模型下载地址：https://huggingface.co/ggerganov/whisper.cpplarge-v1模型比较大，但是会更准确一些。我这边就用large系列模型好了，虽然显卡不咋地，但是跑这个还是够用了,根据限制自行选择模型，占用内存越大越准确。模型工具下载官方提供的客户端，客户端下载可能需要梯子，此处为了节省大家时间，

Sora竟是用这些数据训练的？OpenAI CTO坦白惹众怒

OpenAI的Sora在今年2月横空出世，把文生视频带向了新阶段。它能够根据文字提示生成超现实场景。Sora的可适用人群受限，但是在各媒体平台上，Sora的身影无处不在，大家都在期待着使用它。在前几天的访谈中，三位作者透露出Sora的更多细节，包括它处理手部时仍然存在困难，但正在优化。他们也对Sora更多的优化方向进行了阐述，要让用户能够对视频画面有更加精准的控制。不过，短期内，Sora并不会对公众公开。毕竟Sora能够生成与现实十分接近的视频，这会引发很多问题。而正因如此，它还需要更多的改进，人们也需要更多时间来适应。不过不用气馁，这个短期可能不会太久。OpenAI首席技术官MiraMura

开源版OpenAI机器人2.5万打造！斯坦福李飞飞团队祭出「灵巧手」，泡茶剪纸炫技

OpenAI大模型加持的机器人Figure01，昨天火爆了全网。而今天，真正「开源版」的擎天柱/Figure01诞生了，而且背后团队还将成本打了下来。成本只要3605.59美元！它拥有一双灵巧手，就比如泡茶，先是拧开瓶盖，再拿茶镊将茶叶挑进杯中，并放回原位。快看，它能一手拿着剪刀，一手拿着便利签纸，执行人类剪纸这一动作。（不过剪断的这个过程好难）它还可以将胶带纸，放到收纳的纸盒中，一手拿胶带摆放，一手将盒子推近。而且不管这个物体是什么，它都能照样完成。与前段时间爆火的炒虾机器人不同的是，「灵巧手」并非通过远程操控完成任务。是因为，凭借一副特制的手套，它可以通过各种传感器捕捉到手部精确的运动数据

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过FunAsr，但是经过中文特殊优化的Whisper就未必了。中文文本标注优化Whisper经常被人诟病的一点是对中文语音转写后标点符号的支持不够完备。首先安装whisper:pipinstall-Uopenai-whisper编写转写脚本：importwhisperdevice="cuda:0"iftorch.cuda.is_available()else"cpu"audio=whisper.lo

智能已经具身！OpenAI 人形机器人首秀，可与人类进行完整对话

作者|王启隆责编|唐小引出品丨AI科技大本营（ID：rgznai100）目前，还有不少企业因成本和安全性问题仍对生成式AI犹豫不决。但时间不等人，随着Google、特斯拉率先入局，国产的达闼、追觅乃至稚晖君创业的「智元机器人（AGIBot）」紧随进场，还有前段时间很火的斯坦福大学「炒菜机器人」，AI已经逐渐掀开了机器人技术革命的帷幕。当地时间3月13日，一家仅成立不足两年却已估值26亿美元的机器人创业公司Figure引爆了AI圈。这家公司的团队成员曾供职于波士顿动力、特斯拉、谷歌DeepMind及ArcherAviation等知名机构，他们在昨天首次公开展示了与新晋投资者及战略伙伴——Open

OpenAI视频生成Sora技术简析

基本介绍Sora是春节期间OpenAI发布的产品，主要是通过文字描述生成视频，通过大规模视频数据训练而成的生成模型，当前还没开放试用。官方发布的技术报告：https://openai.com/research/video-generation-models-as-world-simulators基本思想本质上还是一个扩散模型框架，与之前图像生成类似，只是视频相当于图像加了时间序列，增加了一个时间维度。大致可以想象成通过解噪音，生成了很多图，然后在时间维度上叠加，得到生成的视频。但实际情况并不是一张张图生产后再拼凑成视频。DiT网络在网络结构方面，相比于传统的扩散模型网络，Sora中了Diffu

微软免费AI基础中文课程；马斯克提出撤诉OpenAI条件：“改名ClosedAI”

🦉AI新闻🚀马斯克提出撤诉OpenAI条件：“改名ClosedAI”摘要：埃隆・马斯克针对OpenAI及其CEO萨姆・阿尔特曼提起诉讼，主因双方在人工智能开发的合作协议上出现分歧。马斯克称，OpenAI的转型为营利组织与双方最初的合作理念不符，曾提议合并至特斯拉或由他全权控制，但遭拒绝。马斯克以“改名ClosedAI”为条件提出撤销诉讼，并批评OpenAI背离初衷。OpenAI回应马斯克的提案和指责，并解释了与马斯克分道扬镳的原因。OpenAI创始人团队也强调，不支持赋予任何人绝对控制权的协议。马斯克离开后，表示将寻找或创建对抗谷歌/DeepMind的竞争对手。🚀AMD发布本地运行GPT大语言