Transformer-M

DeepMind指出「Transformer无法超出预训练数据实现泛化」，但有人投来质疑

距离马斯克的xAI公布Grok才过去一天，刚刚，xAI又公布了另一款AI产品，一个可用于prompt工程和可解释性研究的集成开发环境：PromptIDE。接连不断的新品发布，也让网友纷纷感叹：「xAI团队的开发速度简直是疯了！」xAI在官方博客中这样介绍：PromptIDE是一个用于prompt工程和可解释性研究的集成开发环境。它通过SDK加速prompt工程，并且该SDK可以完成复杂的prompt技术，还能进行结果分析，可视化网络输出等。值得注意的是，xAI在Grok的开发中大量的使用了该技术。借助PromptIDE，工程师和研究人员可以透明的访问Grok-1模型（为Grok提供支持的模型）

泛化 Transformer text-align style span 人工智能新闻 AI 模型

科普神文，GPT背后的Transformer模型

上次《解读AI大模型，从了解token开始》一文中，我从最基础的概念“token”着手，跳过了复杂的算法逻辑，相信已经让大家建立起对AI大模型工作原理的清晰认知。但如果仅仅只是依靠对文本的编码与数据分析，那人工智能时代应该早就到来了，为什么唯独是GPT模型的诞生开启了人工智能大模型的全盛时代？今天我将带您一探究竟，看看GPT背后的Transformer模型。什么是Transformer？图片Transformer是一种新颖的神经网络架构，它在2017年由Google的研究人员提出，用于解决机器翻译等自然语言处理的任务。Transformer的特点是，它完全摒弃了传统的循环神经网络（RNN）和卷

神文科普注意力模型注意人工智能 GPT 环境

谷歌DeepMind力证：GPT-4终局是人类智慧总和！Transformer模型无法超越训练数据进行泛化

Transformer模型是否能够超越预训练数据范围，泛化出新的认知和能力，一直是学界争议已久的问题。最近谷歌DeepMind的3位研究研究人员认为，要求模型在超出预训练数据范围之外泛化出解决新问题的能力，几乎是不可能的。LLM的终局就是人类智慧总和？论文地址：https://arxiv.org/abs/2311.00871JimFan转发论文后评论说，这明确说明了训练数据对于模型性能的重要性，所以数据质量对于LLM来说实在是太重要了。研究人员在论文中专注于研究预训练过程的一个特定方面——预训练中使用的数据——并研究它如何影响最终Transformer模型的少样本学习能力。研究人员使用一组来作

力证泛化 span text-align style 人工智能新闻 AI 数据

重新审视Transformer：倒置更有效，真实世界预测的新SOTA出现了

Transformer在时间序列预测中出现了强大能力，可以描述成对依赖关系和提取序列中的多层次表示。然而，研究人员也质疑过基于Transformer的预测器的有效性。这种预测器通常将相同时间戳的多个变量嵌入到不可区分的通道中，并对这些时间token进行关注，以捕捉时间依赖性。考虑到时间点之间的数字关系而非语义关系，研究人员发现，可追溯到统计预测器的简单线性层在性能和效率上都超过了复杂的Transformer。同时，确保变量的独立性和利用互信息越来越受到最新研究的重视，这些研究明确地建立了多变量相关性模型，以实现精确预测，但这一目标在不颠覆常见Transformer架构的情况下是难以实现的。考虑

倒置审视 span text-align style 人工智能新闻 AI 论文

Swin-transformer论文阅读笔记（Swin Transformer: Hierarchical Vision Transformer using Shifted Windows）

论文标题：SwinTransformer:HierarchicalVisionTransformerusingShiftedWindows论文作者：ZeLiu,YutongLin,YueCao,HanHu,YixuanWei,ZhengZhang,StephenLin,BainingGuo论文来源：ICCV2021，Paper代码来源：Code目录1.背景介绍2.研究现状CNN及其变体基于自注意的骨干架构自注意/Transformer来补充CNNs基于Transformer的视觉主干3.方法3.1总体架构SwinTransformerblock3.2基于移位窗口的自注意非重叠窗口中的自注意在连

Transformer Swin-transformer 窗口 span 机器学习

Vision Transformer（VIT）

VisionTransformer（VIT）VisionTransformer（ViT）是一种新兴的图像分类模型，它使用了类似于自然语言处理中的Transformer的结构来处理图像。这种方法通过将输入图像分解成一组图像块，并将这些块变换为一组向量来处理图像。然后，这些向量被输入到Transformer编码器中，以便对它们进行进一步的处理。ViT在许多计算机视觉任务中取得了与传统卷积神经网络相当的性能，但其在处理大尺寸图像和长序列数据方面具有优势。与自然语言处理（NLP）中的Transformer模型类似，ViT模型也可以通过预训练来学习图像的通用特征表示。在预训练过程中，ViT模型通常使用自

Transformer Vision xff0c xff xff0 深度学习计算机视觉

西湖大学利用 Transformer 分析百亿多肽的自组装特性，破解自组装法则

多肽是两个以上氨基酸通过肽键组成的生物活性物质，可以通过折叠、螺旋形成更高级的蛋白质结构。多肽不仅与多个生理活动相关联，还可以自组装成纳米粒子，参与到生物检测、药物递送、组织工程中。然而，多肽的序列组成过于多样，仅10个氨基酸就可以组成超过百亿种多肽。因此，人们很难对其自组装特性进行全面系统的研究，进而优化自组装多肽的设计。为此，西湖大学的李文彬课题组利用基于Transformer的回归网络，对百亿种多肽的自组装特性进行了预测，并分析得到了不同位置氨基酸对自组装特性的影响，为自组装多肽的研究提供了强力的新工具。作者|雪菜编辑|三羊多肽是两个以上氨基酸通过肽键组成的生物活性物质。多肽合成便利、可

组装西湖多肽 xff0c xff transformer 深度学习人工智能 AI for science 生物学

【论文阅读】面向抽取和理解基于Transformer的自动作文评分模型的隐式评价标准（实验结果部分）

方法结果在这一部分，我们展示对于每个模型比较的聚合的统计分析当涉及到计算特征和独立的特征组（表格1），抽取功能组和对齐重要功能组（表格2），并且最后，我们提供从模型比较（LANGUAGE模型v.s.MAINIDEA模型）中获取的样例。由于长度限制，我们只展示了这个比较的细节样例。相似的图片和相关性分析展示在Github上。1.独立特征组因为每个训练好的模型都从他们的训练集合中留出一个不同集合的主题，分析集中相同的主题需要被识别出来，并且那么，抽取的特征的数量和导致的独立特征组在每个模型比较中不同。为每个模型比较计算独立的特征组（表格1），对所有的比较，都产生了在原先70%和77%之间的抽取的特

抽取 Transformer xff0c xff xff0 论文阅读

【视频理解】2022-CVPR-Video Swin Transformer

2022-CVPR-VideoSwinTransformerVideoSwinTransformer摘要1.引言2.相关工作3.VideoSwinTransformer3.1.总体架构3.2.基于3D平移窗口的MSA模块3.3.结构变量3.4.从预训练模型初始化4.实验4.1.设置4.2.与最先进技术的比较4.3.消融实验5.结论参考文献VideoSwinTransformer论文地址摘要视觉领域正在见证从CNN到Transformers的建模转变，纯Transformer架构在主要视频识别基准测试中达到了最高准确度。这些视频模型都建立在Transformer层之上，Transformer层

Transformer CVPR-Video span class style 深度学习人工智能机器学习计算机视觉神经网络

transformer 4 RuntimeError: Expected tensor for argument #1 ‘indices‘ to have scalar type Long

在使用transformer4.0时，报错误提示RuntimeError:Expectedtensorforargument#1'indices'tohavescalartypeLong;butgottorch.IntTensorinstead(whilecheckingargumentsforembedding)。该问题主要时由于tensor的类型导致的，解决方法是在相应报错行的前一行对数据类型进行转换。假设输入数据为x，那么增加行为“x =torch.tensor(x).to(torch.int64)”。如果修改之后仍然出现该错误，并且发生错误的位置发生变化

lsquo RuntimeError site-packages ProgramData Anaconda3 深度学习人工智能 python transformer

15 16 171819 20 21