openAI_草庐IT

OpenAI增强ChatGPT“绘画”能力

OpenAI宣布在ChatGPT中引入一项新功能，可以根据用户对话创建独特的图像。该功能可供ChatGPT的Plus和Enterprise用户使用，便于基于用户描述进行视觉渲染，并支持直接在聊天中进行迭代细化。底层技术由OpenAI的高级图像模型DALL·E3驱动。DALL·E3是OpenAI内外多项研究进展的结晶。值得注意的是，它的视觉效果不仅更吸引人，而且更清晰，优于前代。它在渲染文本、手和面部特征等复杂组件方面表现出娴熟的技巧。增强了对详细提示做出反应和支持各种纵横比的能力，这源于先进的训练方案。通过使用尖端的图像字幕，可以为训练图像生成更好的文本描述。DALL·E3通过在这些增强型字幕

大模型搞“人肉搜索”，准确率高达95.8%！研究作者：已提醒OpenAI谷歌Meta

一项最新研究（来自苏黎世联邦理工大学）发现：大模型的“人肉搜索”能力简直不可小觑。例如一位Reddit用户只是发表了这么一句话：我的通勤路上有一个烦人的十字路口，在那里转弯（waitingforahookturn）要困好久。尽管这位发帖者无意透露自己的坐标，但GPT-4还是准确推断出TA来自墨尔本（因为它知道“hookturn”是墨尔本的一个特色交通规则）。再浏览TA的其他帖子，GPT-4还猜出了TA的性别和大致年龄。（通过“34d”猜出女性，“TwinPeaks”1990-1991年播出TA还在上学猜出年龄）没错！不止是GPT-4，该研究还测试了市面上其他8个大模型，例如Claude、羊驼等

因版权问题，环球音乐起诉 OpenAI 创始人旗下 AI 公司 Anthropic

10月20日消息，Anthropic是OpenAI创始人于2021年创立的一家人工智能公司，以聊天机器人 Claude而闻名。近日，环球音乐集团（UMG）与ABKCO和ConcordPublishing一起对Anthropic提起侵权诉讼，指控其“非法复制和传播大量受版权保护的作品（包括歌词）”，以创建AI模型。UMG指出，Anthropic的AI模型及Claude2聊天机器人可能会提供各种流行歌曲中“相同或几乎相同”的歌词。原告声称：“即使没有特别要求，Anthropic的AI模型也会生成包含出版商歌词的内容。” 例如，更广泛的提示（写一首关于巴迪・霍利BuddyHolly的死亡或从费城搬到

OpenAI终于Open一回：DALL-E 3论文公布、上线ChatGPT，作者一半是华人

终于，「OpenAI又Open了」。在看到OpenAI刚刚发布的DALL・E3相关论文后，一位网友感叹说。DALL・E 3是OpenAI在2023年9月份发布的一个文生图模型。与上一代模型DALL・E2最大的区别在于，它可以利用ChatGPT生成提示（prompt），然后让模型根据该提示生成图像。对于不擅长编写提示的普通人来说，这一改进大大提高了DALL・E3的使用效率。此外，与DALL・E2相比，DALL・E3生成的图质量也更高。DALL・E2与DALL・E3的生成效果对比。对于同样的prompt「一幅描绘篮球运动员扣篮的油画，并伴以爆炸的星云」，左图DALL・E2在细节、清晰度、明亮度等方

OpenAI新模型研发遇挫，稀疏性是大模型降本的钥匙吗？

大模型的训练与运行成本极其高昂，OpenAI也尝试过降低成本，只可惜失败了。去年年底，当ChatGPT引起全球轰动时，OpenAI的工程师开始研究一种新的人工智能模型，代号为Arrakis。Arrakis旨在让OpenAI能够以更低的成本运行聊天机器人。但据知情人士透露：2023年年中，OpenAI已经取消了Arrakis的发布，因为该模型的运行效率没有公司预期的那么高。这次失败意味着OpenAI失去了宝贵的时间，并需要将资源转移到开发不同的模型上。对合作投资来说，Arrakis的研发计划对于两家公司完成100亿美元投资和产品交易的谈判非常有价值。据一位知情的微软员工透露，Arrakis的失

OpenAI都想入局的GPU，究竟是个啥？

随着ChatGPT等大型语言模型掀起新一轮AI变革浪潮，AI芯片短缺问题日益严重。例如，ChatGPT开发商OpenAI高度依赖微软提供的超级计算机，使用了大量的英伟达GPU。近日有消息称，OpenAI正在考虑自己制造或收购AI芯片，以解决其业务所需的高性能和低成本GPU的问题。今天，咱们来聊聊，OpenAI都想入局的GPU，究竟是个啥？GPU是什么“一千款手机，就有一千种游戏体验”，当我们用不同的手机玩游戏时，体验感是不同的，除了响应速度，游戏画面的精美度和立体度也是一个主要差异，造成这种差异的因素之一是手机GPU的性能不同。GPU（GraphicsProcessingUnit，图形处理器）

OpenAI Whisper and ChatGPT 语音助手

OpenAIWhisperandChatGPTASRGradioWebUI一环境准备1.1python1.2windows二导入所需要的包三加载模型四定义openai和whisper接口五生成GradioWebUI麦克风输入，展示三种结果输入ASR结果输出文本输出TTS结果一环境准备1.1pythongradio==3.19.1gTTS==2.3.1openai==0.27.0openai-whisper==202301241.2windows使用以下命令安装ffmpegchocoinstallffmpeg需要科学上网，否则连接超时二导入所需要的包importwhisperimportgrad

《AI上字幕》基于openAI研发的whisper模型，语音（视频）一键转文本/字幕/带时间轴/支持多语言/自带翻译《桌面版教程》

简介：OpenAI的chatGPT非常火爆，其实OpenAI旗下的另一个模型实力也十分强大，它就是开源免费的Whisper语音转文本模型，目前为止它是较为顶尖的语音转文本模型当前github上也有许多出色的开发者根据此模型开发出桌面版语音转文字应用。较为出色的分别是Buzz和WhisperDesktop功能：支持将多种语言的视频或者音频文件，转换成字幕文件、带时间轴的文本、纯文本。支持多语言音翻译成英文英文可以使用网页翻译功能翻译成中文用途：字幕文件导入剪辑软件可以一键上字幕，生产力MAX配合PotPlayer能够生成双语字幕，学习英语简直离不开它俩对于纯外语不带字幕靠听力的视频资料，简直不要

GPT-4V多模态能力惊人！公式截图直出代码，「龙与魔法世界」瞬间生成，OpenAI总裁激动转发

最近，GPT-4一直在默默更新，加入了多模态，语音交互等功能。但是与年初OpenAI每次发布的新功能，都能引得外界一阵惊呼的阵仗相比，现在GPT-4的声量似乎小了很多。不知道是不是担心自己产品发布太过于耀眼，导致监管和官司不断找上门，OpenAI除了3周前更新了文生图模型DALL-E3外，在发布了GPT-4之后的7个月内，官方没有公开发布任何新的产品和功能。但是OpenAI总裁GregBrockman自己却在X（推特）上，不断转发利用新版的GPT-4来实现的各种天马行空的功能。利用GPT-4V的多模态能力和代码能力，直接把一个写在书上的数学公式转化成一段Python代码。而利用GPT-4刚更新

Java程序接入ChatGPT

Java程序接入ChatGPT0前言1还想体验的小伙伴可以试试2Java接入前准备3官方支持接入语言4调用费用5接口调用说明6代码实现6.1postman调用6.2Java调用7小结0前言之前文章中我们聊过怎么注册使用最近很火的ChatGPT？这期我们来看看怎么在Java中调用ChatGPT接口。传送门花了1块钱体验一把最近很火的ChatGPT之后又有大佬将ChatGPT接入微信，以微信机器人的身份出来给我们提供服务。传送门ChatGPT新玩法来了，微信聊天机器人但是出于各种原因，微信上的机器人已经暂时用不了了（不是她高冷哈。。。），至于后面还能不能恢复还不知道。1还想体验的小伙伴可以试试处于