Sora的影像_草庐IT

首批类Sora模型出现，色拉布上线Snap Video，效果优于Pika、不输Gen-2

最近，OpenAI视频生成模型Sora的爆火，给基于Transformer的扩散模型重新带来了一波热度，比如Sora研发负责人之一WilliamPeebles与纽约大学助理教授谢赛宁去年提出的DiT（DiffusionTransformer）。当然，随着视频生成这波AI趋势的继续演进，类似架构的模型会越来越多。就在昨天，开发出SnapChat图片分享软件的Snap公司、特伦托大学等机构联合发布了类似Sora的文本生成视频模型SnapVideo，这次他们使用到了可扩展的时空Transformer。相关的论文《SnapVideo:ScaledSpatiotemporalTransformersfo

AIGC专题：Sora是如何成功的？

今天分享的是AIGC专题系列深度研究报告：《AIGC专题：Sora是如何成功的？》。（报告出品方：中泰证券）报告共计：15页来源：人工智能学派Sora：大规模训练的视频生成模型，支持60s1080p视频生成◼2024年2月15日，OpenAI推出了视频生成模型Sora。Sora进行了大规模的训练，并使用了不同尺寸、分辨率和时长的视频进行训练，并沿用了扩散模型（DiffusionModel）的思路在Transformer架构上进行训练。◼Sora能够生成长达60s的1080p清晰度视频。OpenAI认为，构建Sora这样的缩放视频生成模型（ScalingVideoGenerationModel）

新王炸：文生视频Sora模型发布，能否引爆AI芯片热潮

前言前方高能预警，Sora来袭！浅析Sora的技术亮点语言模型中构建关键词联系视频素材分解为时空碎片扩散模型DiTNotforplay,Butchangeworld!OpenAI的宏大目标未来已来，只是尚未流行Sora的成本与OpenAI的7万亿美金豪赌算力，未来在何方？最后参考文献前言在人工智能的历史长河中，每一次技术的飞跃都伴随着社会生产力的巨大变革。自2015年以来，深度学习技术的突破性进展，尤其是在自然语言处理、图像识别和机器学习等领域的成功应用，已经彻底改变了我们对机器智能的认识和期待。这些技术的进步不仅仅是理论上的突破，更是实际应用的革命，它们正在逐步渗透到我们生活的方方面面，从自

追赶OpenAI的Sora：Meta开源V-JEPA，让AI学会认识世界！

就在Sora疯狂刷屏那天，还有两款重磅产品发布：一个是谷歌的Gemini1.5，首个支持100万tokens上下文的大模型；另外一个便是全球科技、社交巨头Meta的V-JEPA。有趣的是，在功能方面V-JEPA与Sora有很多相似之处，例如，都具备让AI学会如何通过自我监督学习认识、模拟世界，以提升生成视频的质量、表示学习方法和扩大视频训练数据范围。可惜那天全世界的目光都聚焦在Sora身上，让图灵奖获得者，Meta首席科学家YannLeCuns气的直跺脚，在社交平台上各种酸Sora的成果。开源地址：https://github.com/facebookresearch/jepa论文地址：htt

AI配音版Sora视频刷屏！绝美逼真音效打破「无声电影」，或颠覆万亿美元产业

Sora突破之后的突破又来了！语音初创公司ElevenLabs放大招，直接用AI给Sora经典视频完成了配音。网友惊呼离AI完全生成电影又近了一步。虽然一些人不想承认，但AI视频模型Sora的开年王炸，确实给影视行业带来了颠覆性的影响！OpenAISora各种逼真视频的生成足以让人惊掉下巴，有网友却表示，现在的Sora视频更像是「无声电影」。如果再给它们配上音效，现实可就真的就不存在了......就在今天，AI语音克隆初创公司ElevenLabs给经典的Sora演示视频，完成了绝美的配音。听过之后，让人简直颅内高潮。从建筑物到鲨鱼无缝切换视频中，可以听到小鸟叽喳，狗在狂吠，不同动物叫声糅杂在一

（一文读懂）【OPEN AI SORA技术报告】视频生成模型SORA作为世界模拟器-Video generation models as world simulators

引言本文内容来自OPENAI技术报告>。概述我们探索了在视频数据上进行大规模生成模型的训练。具体来说，我们联合训练了文本条件扩散模型，这些模型适用于不同时长、分辨率和纵横比的视频和图像。我们利用了一种基于Transformer的架构，该架构可以对视频和图像的潜在编码进行时空块操作。我们最大的模型Sora能够生成一分钟的高保真视频。我们的结果表明，扩展视频生成模型是构建通用物理世界模拟器的一条有前景的途径。技术报告摘要：本技术报告主要关注两个核心方面：(1)我们提出的方法，该方法能够将各种类型的视觉数据转化为统一表示，从而支持生成模型的大规模训练；(2)对Sora模型的能力和局限性的定性评估。本

外媒抢先实测Sora，视频大翻车惨不忍睹？不懂物理/动物变形/速度巨慢，但初创公司已经创死一片

虽然功能还未正式开放，但已经有外媒抢先上手体验了！结果就是——Sora翻车了！最近，就在外界对Sora一片赞誉声之时，一些冷静的外媒，也开始发出了质疑的声音。Bloomberg认为：Sora的确令人印象深刻，但它尚未准备好迎接未来的黄金时段。原因就在于，Sora现在对于身体部位的理解和物理学的复杂原理还无法完全掌握，并且，它处理请求的时间，实在是太长了！用作者Peebles的话来说就是，Sora的速度太慢了，你可以在等待视频生成时去吃点零食。Sora翻车：鹦鹉猴子傻傻分不清，还巨慢因为Sora至今仍在红队测试中，还无法直接访问。只有被选中的艺术家、电影制作人和设计师才能获得访问系统的权限。为了

Sora阴影之下，焦虑的中国AI

“跟不上的可能就要被淘汰了。”看到Sora演示视频后，从业10多年的动画制作师黄斌得出了这样的判断。随着影视业失业潮呼声渐起，Sora的诞生也给中国AI行业带来了巨大的焦虑。360集团创始人周鸿祎认为，Sora模型展现出了超越当前中国同类产品的性能和技术水平，这不仅体现在Sora可能实现通用人工智能（AGI）的时间表上，还体现在其实际应用效果和创新能力上。更有甚者，网上流传着“Sora的诞生是牛顿时刻”的说法，认为Sora代表了新一轮产业革命的兴起。事实上，国内在经过“百模大战”之后，才刚刚在文本模型上取得显著成果，达到或超过GPT-3.5的水平，并正朝着GPT-4的方向努力追赶。但Sora的

Open AI 的 Sora 是什么？它是如何工作的？应用场景、风险、替代方案、未来意义等

OpenAI的Sora是什么？它是如何工作的？应用场景、风险、替代方案、未来意义等探索OpenAI的Sora：一种突破性的文本到视频AI，将在2024年彻底改变多模态人工智能。探索其功能、创新和潜在影响。OpenAI最近宣布了其最新的突破性技术——Sora。到目前为止，这种文本到视频的生成人工智能模型看起来令人难以置信，为许多行业带来了巨大的潜力。一、Sora是什么？Sora是OpenAI的文本到视频生成人工智能模型。这意味着编写一个文本提示，它会创建一个与提示描述相匹配的视频。以下是OpenAI网站上的示例：提示词：一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、

不了解Sora？看完这篇文章你就懂了

一、Sora的概念介绍2024年2月16日，OpenAI发布了“文生视频”（text-to-video）的大模型工具，Sora（利用自然语言描述，生成视频）。这个消息一经发出，全球社交主流媒体平台以及整个世界都再次被OpenAI震撼了。AI视频的高度一下子被Sora拉高了，要知道RunwayPika等文生视频工具，都还在突破几秒内的连贯性，而Sora已经可以直接生成长达60s的一镜到底视频，要知道目前Sora还没有正式发布，就已经能达到这个效果。Sora这一名称源于日文“空”（そら sora），即天空之意，以示其无限的创造潜力。看完这个图，各位应该就能明白Sora对同类工具的冲击力有多大了吧。