gpt-4vision_草庐IT

【Docker】快速部署 ChatGPT Next Web，一键免费部署你的私人 ChatGPT 网页应用，支持 GPT3, GPT4 & Gemini Pro 模型。

引言ChatGPTNextWeb可以一键免费部署你的私人ChatGPT网页应用，支持GPT3,GPT4&GeminiPro模型。你无需任何复杂的配置，只需几行命令就可以完成部署。我们将通过Docker来部署这个应用。部署步骤下载Docker镜像首先，我们需要从DockerHub下载ChatGPT应用的Docker镜像。Docker版本需要在20及其以上，否则会提示找不到镜像。在终端中运行以下命令：sudodockerpullyidadaa/chatgpt-next-web这行命令会告诉Docker从DockerHub下载名为yidadaa/chatgpt-next-web的镜像。注意：dock

LLaMa 3或将推迟到7月发布，剑指GPT-4，从Gemini吸取教训

过去的图像生成模型常被人们诟病人物主要以「白人」为主，而谷歌Gemini正在因为它的矫枉过正而深陷翻车风波。它「过度谨慎」的文生图结果会与历史事实出现极大偏差，让用户们瞠目结舌。谷歌表示，该模型变得比开发者预期的更加谨慎。这不仅体现在生成图片的问题上，还体现在常常将一些提示认作敏感提示，从而拒绝回答。在此事不断发酵时，这项安全与可用性如何平衡的难题也给Meta提出了巨大挑战。LLaMA2是开源领域的「强中手」，更是Meta的招牌模型，一经发布即改变了大模型格局。现在，Meta正在积极筹备LLaMa3，不过这得先解决LLaMA2的遗留问题：回答有争议问题时表现过于保守。在安全与可用性之间寻求平衡

中国如何复刻Sora，华人团队长文解构！996 OpenAI研究员：Sora是视频GPT-2时刻

今天，这张图在AI社区热转。它列举了一众文生视频模型的诞生时间、架构和作者机构。毫不意外，谷歌依然是视频模型开山之作的作者。不过如今AI视频的聚光灯，全被Sora抢去了。同时，自曝996作息时间表的OpenAI研究员JasonWei表示——「Sora是一个里程碑，代表着视频生成的GPT-2时刻。」对于文字生成领域，GPT-2无疑是一个分水岭。2018年GPT-2的推出，标志着能够生成连贯、语法正确的文本段落的新时代。当然，GPT-2也难以完成一篇完整无误的文章，会出现逻辑不一致或捏造事实的情况。但是，它为后续的模型发展奠定了基础。在不到五年内，GPT-4已经能够执行串联思维这种复杂任务，或者写

字节万卡集群技术细节公开：2天搞定GPT-3训练，算力利用率超英伟达Megatron-LM

随着对Sora技术分析的展开，AI基础设施的重要性愈发凸显。来自字节和北大的一篇新论文在此时吸引关注：文章披露，字节搭建起的万卡集群，能在1.75天内完成GPT-3规模模型（175B）的训练。具体来说，字节提出了一个名为MegaScale的生产系统，旨在解决在万卡集群上训练大模型时面临的效率和稳定性挑战。在12288块GPU上训练1750亿参数大语言模型时，MegaScale实现了55.2%的算力利用率（MFU），是英伟达Megatron-LM的1.34倍。论文还透露，截止2023年9月，字节已建立起超过1万张卡的Ampere架构GPU（A100/A800）集群，目前正在建设大规模Hopper

60行代码，从头开始构建GPT！最全实践指南来了

60行代码，从头开始构建GPT？最近，一位开发者做了一个实践指南，用Numpy代码从头开始实现GPT。你还可以将OpenAI发布的GPT-2模型权重加载到构建的GPT中，并生成一些文本。话不多说，直接开始构建GPT。什么是GPT？GPT代表生成式预训练Transformer，是一种基于Transformer的神经网络结构。-生成式（Generative）：GPT生成文本。-预训练（Pre-trained）：GPT是根据书本、互联网等中的大量文本进行训练的。-Transformer：GPT是一种仅用于解码器的Transformer神经网络。大模型，如OpenAI的GPT-3、谷歌的LaMDA，以

大模型运行成本对比：GPT-3.5/4 vs. 开源托管

在过去的几个月里，生成式人工智能领域出现了许多令人兴奋的新进展。ChatGPT于2022年底发布，席卷了人工智能世界。作为回应，各行业开始研究大型语言模型以及如何将其纳入其业务中。然而，在医疗保健、金融和法律行业等敏感应用中，ChatGPT等公共API的隐私一直是一个问题。然而，最近Falcon和LLaMA等开源模型的创新使得从开源模型中获得类似ChatGPT的质量成为可能。这些模型的好处是，与ChatGPT或GPT-4不同，模型权重适用于大多数商业用例。通过在定制云提供商或本地基础设施上部署这些模型，隐私问题得到缓解——这意味着大型行业现在可以开始认真考虑将生成式人工智能的奇迹融入到他们的产

不仅是Vision Pro，AR还能这样玩

苹果的VisionPro开售不久，就已经狂卖20万台。有人说它是“有史以来最好的消费类头显”，但有人也对其不稳定的表现、不够自然的数字化身、过重的分量等颇有微词。无论怎样，苹果将诸多想法融合在一起打造成的这台“电脑化”的头显产品，再一次将VR、AR相关的产品带回了大众的视野。AR在最初的几年，凭借视频游戏等迅速赢得了关注。今天我们就来聊聊AR领域的发展趋势，以及如何与企业业务协同发展。AI的发展一直与AR紧密相连。AI模型在人脸扫描、地图扫描等任务中效率更高，部分AI工具已经可以用来创建和操作3D对象。今天，AR不仅只利用AI来分析传感器数据——AI开始被用来实现一些更重要的任务，以补充和增强

跟着GPT学设计模式之代理模式

引言代理模式（ProxyDesignPattern）在不改变原始类（或叫被代理类）代码的情况下，通过引入代理类来给原始类附加功能。代理模式的关键角色包括：抽象主题（Subject）：定义了目标对象和代理对象的共同接口，这样一来在任何可以使用目标对象的地方都可以使用代理对象。目标对象（RealSubject）：也称为被代理对象，是具体业务逻辑的实际执行者。代理对象（Proxy）：负责代理目标对象，它持有对目标对象的引用，并在其自身的方法中调用目标对象的方法，同时还可以在调用前后进行一些其他的操作。应用场景代理模式可以应用于许多场景，以下是几个常见的应用场景：远程代理（RemoteProxy）：代

AIGC是什么？GPT-4.0、DALL·E以及Midjourney等多种智能服务

AIGC（人工智能生成内容，ArtificialIntelligenceGeneratedContent）是指利用人工智能技术自动生成的文本、图像、音频和视频等内容。随着技术的进步，AIGC已经成为创意产业和内容创作领域的一股新兴力量。MidTool作为一款集成了多种智能服务的工具，正是AIGC领域的一个典型代表。MidTool(https://www.aimidtool.com/)的核心优势在于其集成了ChatGPT3.5、GPT-4.0、DALL·E以及Midjourney等多种智能服务，这些服务都是AIGC的重要组成部分。下面是MidTool在AIGC领域的一些应用示例：文本生成与编辑：

MATRIX：社会模拟推动大模型价值自对齐，比GPT4更「体贴」

模型如ChatGPT依赖于基于人类反馈的强化学习（RLHF），这一方法通过鼓励标注者偏好的回答并惩罚不受欢迎的反馈，提出了一种解决方案。然而，RLHF面临着成本高昂、难以优化等问题，以及在超人类水平模型面前显得力不从心。为了减少乃至消除对人类监督的依赖，Anthropic推出了ConstitutionalAI，旨在要求语言模型在回答时遵循一系列人类规则。同时，OpenAI的研究通过采用弱模型监督强模型的方法，为超人类水平模型的对齐提供了新的视角。尽管如此，由于用户给出的指令千变万化，将一套固定的社会规则应用于LLMs显得不够灵活；而且，弱模型对强模型的监督提升效果尚不明显。为了解决这些大语言模