草庐IT

Transformer-based

全部标签

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源

DiT作为效果惊艳的Sora的核心技术之一,利用DifffusionTransfomer将生成模型扩展到更大的模型规模,从而实现高质量的图像生成。然而,更大的模型规模导致训练成本飙升。为此,来自SeaAILab、南开大学、昆仑万维2050研究院的颜水成和程明明研究团队在ICCV2023提出的MaskedDiffusionTransformer利用maskmodeling表征学习策略通过学习语义表征信息来大幅加速DiffusionTransfomer的训练速度,并实现SoTA的图像生成效果。图片论文地址:https://arxiv.org/abs/2303.14389GitHub地址:https

论文笔记:Computation Off-Loading in Resource-Constrained Edge Computing Systems Based on DRL

ComputationOff-LoadinginResource-ConstrainedEdgeComputingSystemsBasedonDeepReinforcementLearning期刊:IEEETRANSACTIONSONCOMPUTERS,VOL.73,NO.1,JANUARY2024领域:边缘计算等级:CCF-A作者:ChuanwenLuo等背景:边缘计算是一种计算范式,它使资源更接近网络边缘,例如基站或网关,以便为移动设备提供快速有效的计算服务,同时减轻核心网络上的压力。问题:边缘服务器的当前计算能力不足以处理由接入设备生成的大量任务。此外,一些移动设备可能没有充分利用其计算

论文阅读:PVT v2: Improved Baselines with Pyramid Vision Transformer

来源:PVTv1和PVTv2链接:https://arxiv.org/pdf/2102.12122.pdf 链接:https://arxiv.org/pdf/2106.13797.pdfPVTv2是在PVTv1基础上,所以先介绍PVTv1PyramidVisionTransformer:AVersatileBackboneforDensePredictionwithoutConvolutions0、Abstract        尽管卷积神经网络(cnn)在计算机视觉领域取得了巨大的成功,但本研究研究的是一种更简单、无卷积的骨干网络,可用于许多密集的预测任务。与最近提出的专门为图像分类而设计的

【人工智能学习】第十四课:理解自注意力机制和Transformer模型

第十四课:理解自注意力机制和Transformer模型第十四课:自注意力机制和Transformer1.自注意力机制简介自注意力机制的计算2.Transformer模型3.Transformer在NLP中的应用4.动手实践:探索Transformer模型结语第十四课:自注意力机制和Transformer1.自注意力机制简介自注意力机制(Self-Attention)是一种允许输入序列中的每个位置都与其他所有位置交互以计算表示的机制。它是Transformer架构的核心,被广泛应用于自然语言处理(NLP)和计算机视觉(CV)等领域。自注意力机制的计算给定一个序列(X)(例如,一个句子中的单词序列

OpenAI开源了:Transformer自动Debug工具上线GitHub

最近时常被吐槽不够开源的OpenAI,突然开放了一次。今天一早,OpenAI机器学习研究员JanLeike宣布,OpenAI开放了自己内部一直用于分析Transformer内部结构的工具。GitHub链接:https://github.com/openai/transformer-debugger该项目开放才几个小时,虽然没有经过太多宣传,star数量上涨得也挺快。TransformerDebugger介绍TransformerDebugger(TDB)是OpenAI对齐团队(Superalignment)开发的一种工具,旨在支持对小体量语言模型的特定行为进行检查。据介绍,该工具把自动可解释性

350亿参数、开放权重,Transformer作者创业后推出新大模型

今天,由Transformer作者之一AidanGomez参与创立的人工智能初创公司Cohere迎来了自家大模型的发布。Cohere推出的模型名为「Command-R」,参数量为35B,它是一个针对大规模生产工作负载的全新大语言模型研究版本。该模型属于「可扩展」模型类别,能够平衡高效率和高精度,使企业用户超越概念验证,进入生产阶段。作为一种生成模型,Command-R针对检索增强生成(RAG)等长上下文任务以及使用外部API和工具进行了优化。该模型旨在与自家行业领先的嵌入(Embed)和重新排序(Rerank)模型配合使用,为RAG应用程序提供一流的集成,并在企业用例中具有出色表现。就其架构而

java - GLib-CRITICAL ** : g_base64_encode_step: assertion 'in != NULL' failed problems in ubuntu

org.eclipse.m2e.logback.configuration:org.eclipse.m2e.logback.configuration包在状态位置初始化之前被激活。将在状态位置初始化后重试。(Eclipse:5550):GLib-CRITICAL**:g_base64_encode_step:断言'in!=NULL'失败(Eclipse:5550):GLib-CRITICAL**:g_base64_encode_step:断言'in!=NULL'失败(Eclipse:5550):GLib-CRITICAL**:g_base64_encode_step:断言'in!=NU

【论文阅读】Informer Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

原始题目:Informer:BeyondEfficientTransformerforLongSequenceTime-SeriesForecasting中文翻译:Informer:超越有效变换器进行长序列时间序列预测发表时间:2021-05-18平台:ProceedingsoftheAAAIConferenceonArtificialIntelligence文章链接:https://ojs.aaai.org/index.php/AAAI/article/view/17325开源代码:https://github.com/zhouhaoyi/Informer2020摘要许多现实世界的应用都需要

java - 将字节数组转换为base64字符串java

尝试将byte[]转换为base64字符串,使用org.apache.commons.codec.binary.Base64..为此,我的java代码如下所示:base64String=Base64.encodeBase64URLSafeString(myByteArray);但我看到的是生成的base64字符串中的一些无效字符..为什么我在生成的base64字符串中看到这些____行?它是一个有效的字符串吗?请注意,生成的字符串的长度可以被四整除。 最佳答案 您是否尝试过使用encodeBase64String方法而不是使用enc

java - Spark 1.4.0 java.lang.NoSuchMethodError : com. google.common.base.Stopwatch.elapsedMillis()J

我正在使用spark1.4.0/hadoop2.6.0(仅适用于hdfs)并且在运行ScalaSparkPageRank示例时(examples/src/main/scala/org/apache/spark/examples/SparkPageRank.scala),我遇到以下错误:Exceptioninthread"main"java.lang.NoSuchMethodError:com.google.common.base.Stopwatch.elapsedMillis()Jatorg.apache.hadoop.mapred.FileInputFormat.listStatus