草庐IT

AIGC-Stable

全部标签

AIGC专题:Sora是如何成功的?

今天分享的是AIGC专题系列深度研究报告:《AIGC专题:Sora是如何成功的?》。(报告出品方:中泰证券)报告共计:15页来源:人工智能学派Sora:大规模训练的视频生成模型,支持60s1080p视频生成◼2024年2月15日,OpenAI推出了视频生成模型Sora。Sora进行了大规模的训练,并使用了不同尺寸、分辨率和时长的视频进行训练,并沿用了扩散模型(DiffusionModel)的思路在Transformer架构上进行训练。◼Sora能够生成长达60s的1080p清晰度视频。OpenAI认为,构建Sora这样的缩放视频生成模型(ScalingVideoGenerationModel)

科技部出手!科研人员的 AIGC 使用手册来了,学术界开始防范 AI 枪手

篡改实验数据、实验图片造假、论文不当署名、教材编写抄袭……1月16日下午,华中农业大学的11名学生「一纸诉状」,以一份125页的举报材料实名举报该校黄姓教授存在学术不端行为。一时间,舆论迅速发酵,「赌上前程捍卫学术清白」、「人人都是学术造假受害者」等相关内容在各大平台引发热烈讨论。有网友由此联想到了此前的阿尔兹海默症开山论文造假事件,这篇被引用2300余次的Nature论文误导了全球阿尔茨海默病研究长达16年。心无旁骛求是真,艺不精深未可言。过去的百余年间,学术清正之风、造福人类的崇高信仰,是指引莘莘学子在科研道路上步履不停的明灯,但如今却掺杂了越来越多的名利诱惑,致使学术造假屡禁不止。尤其是

Stable diffusion 实现人台图转换模特图详细步骤:(照抄即可实现)

前置条件:    ①默认是配置好环境的,配置环境很简单有很多教学视频,②有基础大模型真实系列的,这个也好解决,网上很多,如果需要我的也可分享③电脑配置较佳小Tips:         正面图片也可以照抄而且步骤更少,但是如果需要控制人脸和肤色需要训练模型,我会在下一次业务有需求的时候抽空做一个,敬请期待吧!        人台图准备:注意点:①设备像素较佳(拍照出图的质量直接决定了成图的质量)②人台具有胳膊,可调节最好(因为如果是长袖衣服,没用胳膊姿势是无法调节的,3Dopenpose也无能为力,因为衣服是作为蒙版去绘图的)③照片的角度就是模特图的角度,包括衣服的大小和远近(这里实操后就能理解

万字长文!AIGC 时代数字图像水印的进展与实践 | 新程序员

【导读】数字水印是信息安全领域的新技术,用于保护数据的保密性和完整性。传统方法基于信号处理、信息论和密码学原理,分为空域和变换域方法。本文介绍了数字图像水印的发展与实践,包括定义和追求、传统数字水印方法、深度学习水印方法以及生成图像水印方法。文章还讨论了水印提取方案和未来发展趋势,如将水印信息隐藏在生成图像的风格特征中,利用深度学习模型的优势提高水印的不可感知性等。本文精选自《新程序员 007:大模型时代的开发者》,《新程序员007》聚焦开发者成长,其间既有图灵奖得主JosephSifakis、前OpenAI科学家JoelLehman等高瞻远瞩,又有对于开发者们至关重要的成长路径、工程实践及趟

AIGC专题:2023生成式人工智能发展与监管白皮书-中国AI治理的独立思考

今天分享的是AIGC系列深度研究报告:《AIGC专题:2023生成式人工智能发展与监管白皮书-中国AI治理的独立思考》。(报告出品方:南方财经全媒体集团)报告共计:42页来源:人工智能学派发展:生成式AI治理的第一视角2022年11月,OpenAl推出的聊天生成预训练转换器(ChatGPT)的爆火,带来了人工智能的“iPhone时刻”。该产品以强大的文字处理和人机交互功能迅速风靡全球。数据显示,发布五天内其用户量就达到了100万,并在短短2个月内用户量破亿,取得现象级战绩。以ChatGPT等大语言模型为标志的生成式A1的成功,带来了新的范式革命和广阔的商业前景,资本市场持续高涨的热情也足以彰显

在autodl搭建stable-diffusion-webui+sadTalker

    本文介绍在autodl.com搭建gpu服务器,实现stable-diffusion-webui+sadTalker功能,图片+音频可生成视频。autodl租GPU    自己本地部署SD环境会遇到各种问题,网络问题(比如huggingface是无法访问),所以最好的方式是租用GPU,可以通过以下视频了解如何使用autodl.comAutoDL算力云|弹性、好用、省钱。租GPU就上AutoDL炼丹平台AutoDL的简单使用_哔哩哔哩_bilibili    autoDL比较好的点就是上边有很多大佬已经部署好的环境镜像,直接使用就行。    如图是我租用的一个GPU实例。    选择的镜

AIGC是什么?GPT-4.0、DALL·E以及Midjourney等多种智能服务

AIGC(人工智能生成内容,ArtificialIntelligenceGeneratedContent)是指利用人工智能技术自动生成的文本、图像、音频和视频等内容。随着技术的进步,AIGC已经成为创意产业和内容创作领域的一股新兴力量。MidTool作为一款集成了多种智能服务的工具,正是AIGC领域的一个典型代表。MidTool(https://www.aimidtool.com/)的核心优势在于其集成了ChatGPT3.5、GPT-4.0、DALL·E以及Midjourney等多种智能服务,这些服务都是AIGC的重要组成部分。下面是MidTool在AIGC领域的一些应用示例:文本生成与编辑:

AIGC开发:调用openai的API接口实现简单机器人

简介开始进行最简单的使用:通过API调用openai的模型能力OpenAI的能力如下图:文本生成模型OpenAI的文本生成模型(通常称为生成式预训练Transformer或大型语言模型)经过训练可以理解自然语言、代码和图像。这些模型提供文本输出来响应其输入。这些模型的输入也称为“提示”。设计提示本质上是如何“编程”大型语言模型,通常是通过提供说明或一些如何成功完成任务的示例。ChatCompletionsAPI聊天功能代码示例聊天模型将消息列表作为输入,并返回模型生成的消息作为输出。尽管聊天格式旨在使多轮对话变得容易,但它对于没有任何对话的单轮任务也同样有用。importosfromopena

Adobe Premiere Pro 引入AI提升对话音质;Stable Diffusion:AI图像生成简介

🦉AI新闻🚀AdobePremierePro引入AI提升对话音质摘要:Adobe公司最近发布了一项更新,为其视频编辑软件PremierePro(22.4版本)新增了一个名为EnhanceSpeech的功能,通过AI技术自动调节对话的质量和清晰度,以减少背景噪音并改善音质。此次更新还包括其他AI驱动的音频工具,如交互式淡入淡出处理和音频类别标记,进一步优化视频音频编辑效果。这些功能均在设备上运行,利用CPU和GPU,以确保应用程序的速度和性能。此外,新版还支持将视频导出至Tiktok平台,旨在提高用户编辑视频的效率。🚀联发科芯片优化支持谷歌大语言模型Gemini摘要:联发科宣布其天玑9300和8

AIGC学习笔记——CLIP详解加推理

clip论文地址:https://arxiv.org/pdf/2103.00020.pdfclip代码地址:https://github.com/openai/CLIP小辉问:能不能解释一下zero-shot?小G答:零次学习(Zero-ShotLearning,简称ZSL)假设斑马是未见过的类别,但根据描述外形和马相似、有类似老虎的条纹、具有熊猫相似的颜色,通过这些描述推理出斑马的具体形态,从而能对斑马进行辨认。零次学习就是希望能够模仿人类的这个推理过程,使得计算机具有识别新事物的能力。标准图像模型联合训练一个图像特征提取器和一个线性分类器来预测某些标签,而CLIP联合训练图像编码器和文本编