Meta-Transformer

解析Transformer模型微调：算法、工程实践与高效数据策略

一、引言在人工智能的黄金时代，Transformer架构已经成为了自然语言处理（NLP）领域的革命性创新。自2017年Vaswani等人首次介绍了这一架构以来，Transformer已经演化出多种变体，各自针对不同的NLP任务提供了专门的优化。这些变体包括BERT（BidirectionalEncoderRepresentationsfromTransformers）等Encoder-Only模型，专注于文本理解任务；GPT（GenerativePretrainedTransformer）等Decoder-Only模型，擅长生成连贯的文本序列；以及标准的Encoder-Decoder模型，如

GPT-4准确率最高飙升64%！斯坦福OpenAI重磅研究：全新Meta-Prompting方法让LLM当老板

当你让大模型写一首「莎士比亚十四行诗」，并以严格的韵律「ABABCDCDEFEFGG」执行。同时，诗中还要包含提供的3个词。对于这么高难度的创作题，LLM在收到指令后，并不一定能够按要求做出这首诗。正所谓，人各有所长，LLM也是如此，仅凭单一模型有时是无法完成一项任务的。那该如何解？最近，来自斯坦福和OpenAI的两位研究员，设计了一种提升LLM性能的全新方法——元提示（meta-prompting）。「元提示」能够把单一的LLM变身为全能的「指挥家」。论文地址：https://arxiv.org/abs/2401.12954通过使用高层「元提示」指令，让大模型把复杂任务拆成子任务，然后再将这

Meta官方的Prompt工程指南：Llama 2这样用更高效

随着大型语言模型（LLM）技术日渐成熟，提示工程（PromptEngineering）变得越来越重要。一些研究机构发布了LLM提示工程指南，包括微软、OpenAI 等等。最近，Llama系列开源模型的提出者Meta也针对Llama2发布了一份交互式提示工程指南，涵盖了Llama2的快速工程和最佳实践。以下是这份指南的核心内容。Llama模型2023年，Meta推出了Llama、Llama2模型。较小的模型部署和运行成本较低，而更大的模型能力更强。Llama2系列模型参数规模如下：CodeLlama是一个以代码为中心的LLM，建立在Llama2的基础上，也有各种参数规模和微调变体：部署LLMLL

【论文阅读笔记】Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation

1.介绍Swin-Unet:Unet-likePureTransformerforMedicalImageSegmentationSwin-Unet：用于医学图像分割的类Unet纯Transformer2022年发表在ComputerVision–ECCV2022WorkshopsPaperCode2.摘要在过去的几年里，卷积神经网络（CNN）在医学图像分析方面取得了里程碑式的成就。特别是基于U型结构和跳跃连接的深度神经网络，已经广泛应用于各种医学图像任务中。然而，尽管CNN取得了优异的性能，但由于卷积运算的局部性，它不能很好地学习全局和远程语义信息交互。在本文中，我们提出了Swin-Unet

从20亿数据中学习物理世界，基于Transformer的通用世界模型成功挑战视频生成

建立会做视频的世界模型，也能通过Transformer来实现了！来自清华和极佳科技的研究人员联手，推出了全新的视频生成通用世界模型——WorldDreamer。它可以完成自然场景和自动驾驶场景多种视频生成任务，例如文生视频、图生视频、视频编辑、动作序列生视频等。据团队介绍，通过预测Token的方式来建立通用场景世界模型，WorldDreamer是业界首个。它把视频生成转换为一个序列预测任务，可以对物理世界的变化和运动规律进行充分地学习。可视化实验已经证明，WorldDreamer已经深刻理解了通用世界的动态变化规律。那么，它都能完成哪些视频任务，效果如何呢？支持多种视频任务图像生成视频（Ima

【新】Unity Meta Quest MR 开发（一）：Passthrough 透视配置

文章目录📕教程说明📕配置透视的串流调试功能📕第一步：设置OVRManager📕第二步：添加OVRPassthroughLayer脚本📕第三步：在场景中添加虚拟物体📕第四步：设置相机📕第五步（可选）：删除场景中的天空盒此教程相关的详细教案，文档，思维导图和工程文件会放入SpatialXR社区。这是一个高质量XR社区，博主目前在内担任XR开发的讲师。此外，该社区提供教程答疑、及时交流、进阶教程、外包、行业动态等服务。社区链接：SpatialXR高级社区（知识星球）SpatialXR高级社区（爱发电）📕教程说明这期教程我将会介绍如何在Unity中，利用MetaXRSDK，去配置MetaQuest中的

EfficientViT: Memory Efficient Vision Transformer withCascaded Group Attention论文阅读

高效的记忆视觉transformer与级联的群体注意摘要。视觉transformer由于其高模型能力而取得了巨大的成功。然而，它们卓越的性能伴随着沉重的计算成本，这使得它们不适合实时应用。在这篇论文中，我们提出了一个高速视觉transformer家族，名为EfficientViT。我们发现现有的transformer模型的速度通常受到内存低效操作的限制，特别是在MHSA中的张量重塑和单元函数。因此，我们设计了一种具有三明治布局的新构建块，即在高效FFN层之间使用单个内存绑定的MHSA，从而提高了内存效率，同时增强了信道通信。此外，我们发现注意图在头部之间具有很高的相似性，从而导致计算冗余。为了

推翻Transformer奠基之作疑被拒收，ICLR评审遭质疑！网友大呼黑幕，LeCun自曝类似经历

去年12月，CMU和普林斯顿的2位研究者发布了Mamba架构，瞬间引起AI社区震动！结果，这篇被众人看好有望「颠覆Transformer霸权」的论文，今天竟曝出疑似被顶会拒收？！今早，康奈尔大学副教授SashaRush最先发现，这篇有望成为奠基之作的论文似乎要被ICLR2024拒之门外。并表示，「说实话，我不理解。如果它被拒绝了，我们还有什么机会」。在OpenReview上可以看到，四位审稿人给出的分数是3、6、8、8。虽然这个分数未必会让论文被拒收，但是3分这样的低分，也是很离谱了。牛文得3分，LeCun都出来喊冤这篇由CMU、普林斯顿大学的2位研究人员发表的论文，提出了一种全新的架构Mam

Mistral AI vs. Meta:顶级开源LLM比较

为了提高性能，大型语言模型(llm)通常会通过增加模型大小的方法来实现这个目标，但是模型大小的增加也增加了计算成本和推理延迟，增加了在实际场景中部署和使用llm的障碍。MistralAI是一家总部位于巴黎的欧洲公司，一直在研究如何提高模型性能，同时减少为实际用例部署llm所需的计算资源。Mistral7B是他们创建的最小的LLM，它为传统的Transformer架构带来了两个新概念，Group-QueryAttention(GQA)和SlidingWindowAttention(SWA)。这些组件加快了推理速度，减少了解码过程中的内存需求，从而实现了更高的吞吐量和处理更长的令牌序列的能力。此外

MBTI+大模型=甜甜的恋爱？美国新年AI裁员潮；中国大模型人才分布图；20分钟览尽NLP百年；Transformer新手入门教程 | ShowMeAI日报

👀日报&周刊合集|🎡生产力工具与行业应用大全|🧡点赞关注评论拜托啦！🉑GenAI是美国「2024年裁员潮」罪魁祸首吗？来看几组数据https://www.trueup.io/layoffs补充一份背景：👆上方链接是TrueUp网站关于科技行业裁员、招聘、股票等信息的汇总页面，其中「TheTechLayoffTracker」实时密切追踪着全球科技公司的裁员信息，覆盖大型科技公司、科技独角兽和初创公司等最近美国科技公司出现了新一轮的「裁员潮」。据TrueUp汇总，2024年到目前为止，科技公司的裁员信息已经有92条之多，影响人数多达17,191(平均每天裁员1,011)。2023年这些数据是，科技