草庐IT

ICLR 2023 | 达摩院开源轻量人脸检测DamoFD

团队模型、论文、博文、直播合集,点击此处浏览一、论文        本文介绍我们被机器学习顶级国际会议ICLR2023接收的论文“DamoFD:DiggingintoBackboneDesignonFaceDetection"论文链接:https://openreview.net/pdf?id=NkJOhtNKX91开源代码(欢迎点赞、收藏、转发三连啊~~~):https://github.com/ly19965/EasyFace/tree/master/face_project/face_detection/DamoFD二、背景1.人脸检测问题定义        人脸检测算法是在一幅图片或者

ICLR 2023 | 达摩院开源轻量人脸检测DamoFD

团队模型、论文、博文、直播合集,点击此处浏览一、论文        本文介绍我们被机器学习顶级国际会议ICLR2023接收的论文“DamoFD:DiggingintoBackboneDesignonFaceDetection"论文链接:https://openreview.net/pdf?id=NkJOhtNKX91开源代码(欢迎点赞、收藏、转发三连啊~~~):https://github.com/ly19965/EasyFace/tree/master/face_project/face_detection/DamoFD二、背景1.人脸检测问题定义        人脸检测算法是在一幅图片或者

达摩院发布2023十大科技趋势,多领域“日进一寸”式融合创新

近日,聚焦基础科学、创新性技术和应用技术研究的阿里巴巴研究机构达摩院,再次重磅发布了年度的重要报告《2023十大科技趋势》,废话不多说,先列出十大科技趋势的主要内容:多模态预训练大模型:基于多模态的预训练大模型将实现图文音统一知识表示,成为人工智能基础设施。Chiplet模块化设计封装:Chiplet的互联标准将逐渐统一,重构芯片研发流程。存算一体:资本和产业双轮驱动,存算一体芯片将在垂直细分领域迎来规模化商用。云原生安全:安全技术与云紧密结合,打造平台化、智能化的新型安全体系。软硬融合云计算体系架构:云计算向以CIPU为中心的全新云计算体系架构深度演进,通过软件定义、硬件加速,在保持云上应用

达摩院发布2023十大科技趋势,多领域“日进一寸”式融合创新

近日,聚焦基础科学、创新性技术和应用技术研究的阿里巴巴研究机构达摩院,再次重磅发布了年度的重要报告《2023十大科技趋势》,废话不多说,先列出十大科技趋势的主要内容:多模态预训练大模型:基于多模态的预训练大模型将实现图文音统一知识表示,成为人工智能基础设施。Chiplet模块化设计封装:Chiplet的互联标准将逐渐统一,重构芯片研发流程。存算一体:资本和产业双轮驱动,存算一体芯片将在垂直细分领域迎来规模化商用。云原生安全:安全技术与云紧密结合,打造平台化、智能化的新型安全体系。软硬融合云计算体系架构:云计算向以CIPU为中心的全新云计算体系架构深度演进,通过软件定义、硬件加速,在保持云上应用

零基础手把手训练实践-图像分类模型-基于达摩院modelscope

零基础手把手训练实践:图像分类模型-基于达摩院modelscope导读:图像分类模型是最简单的,也是最基础的计算机视觉任务,应用非常广泛。本文将手把手介绍零基础训练图像分类模型的实践过程。文章主要介绍如何在标注好的数据集基础上,进行微调,使模型能够在新的数据上重新适配一个新的分类任务。阅读完本文,你将了解如何使用ViT模型在14种花卉数据集上进行分类的微调训练,进而了解大部分分类任务的微调过程。首先,打开ModelScope的官网(https://www.modelscope.cn/home),进入模型库。模型库页面可以看到有很多不同的模型,我们选择:计算机视觉 - 视觉分类 – 通用分类。模

达摩院发布大模型测试基准:GPT-4勉强及格,其他模型悉数落败

随着大模型的发展,尤其是近来各种开源大模型的发布,如何对各种模型进行充分并且准确的评估变得越来越重要。其中一个越来越受到认可的方向就是利用人类考题来检验模型,从而可以测试模型的知识及推理能力。例如对于英文模型,MMLU已经被广泛用来评估模型在多个学科上的表现。类似的,最近中文社区也涌现了例如C-Eval以及GAOKAO这种利用中文试题来测试模型,特别是中文模型的表现。这样的测试基准对于促进模型的发展起着至关重要的作用,然而对于多语言/多模态大模型,相应的评测依然是一片空白。由此,阿里巴巴达摩院多语言NLP团队发布了首个多语言多模态测试基准M3Exam以推动此类评测的发展,论文和数据代码已公开:

腾讯和达摩院相继发布2023年十大科技趋势,AIGC、Web3等仍是关键词

AIGC、数字人、Web3……起伏不定的2022年,仍有不少科技突破让人为之振奋。进入2023年,这些技术是否还能引领行业未来?近日,腾讯和阿里达摩院相继发布了他们对于2023年科技趋势的预测,针对云计算、AI和产业安全等领域,进行了一系列预测和分析。在达摩院的预测中,一些关键词可能是过去一年科技行业耳熟能详的,例如云原生安全、城市数字孪生和饱受关注的生成式AI(AIGC)。趋势一为多模态预训练大模型;趋势二为Chiplet模块化设计封装。达摩院在预测报告中介绍,随着摩尔定律的放缓,Chiplet成为持续提高SoC集成度和算力的重要途径,特别是随着2022年3月份UCle联盟的成立,Chipl

基于模块化思想,阿里达摩院提出多模态基础模型mPLUG-2

对于多模态基础模型,我们希望其不仅可以处理特定的多模态相关任务,还希望其处理单模态任务时也具有优异的性能。阿⾥达摩院团队发现现有的模型往往不能很好的平衡模态协作和模态纠缠的问题,这限制了模型在各种单模态和跨模态下游任务的性能。基于此,达摩院的研究者提出了mPLUG-2,其通过模块化的⽹络结构设计来平衡多模态之间的协作和纠缠问题,mPLUG-2在30+多/单模态任务,取得同等数据量和模型规模SOTA或者Comparable效果,在VideoQA和 VideoCaption上超越Flamingo、VideoCoca、GITv2等超⼤模型取得绝对SOTA。此外,mPLUG-Owl是阿⾥巴巴达摩院mP

GPT-4取代数据分析师,成本仅3000!阿里达摩院&NTU论文引热议

近来,想必很多人被一份「GPT-4取代数据分析师」核算成本的研究报告惊到了。论文内容直戳痛点:使用GPT-4的成本大约是雇佣初级数据分析师的0.71%。论文地址:https://arxiv.org/pdf/2305.15038.pdf这份来自阿里达摩院和南洋理工大学的最新研究,明晃晃地告诉数据分析师,我要取代你们,这就是证据。你以为高级数据分析师,会逃过一劫吗?研究人员称,使用GPT-4的成本是雇佣高级数据分析师的0.45%。这是什么概念?根据就业在线社区Glassdoor统计,一位高级数据分析师年薪大约10万美元(70万人民币)。要是换成GPT-4,仅需要450美元,也就3000元左右。从7

达摩院开源多模态对话大模型mPLUG-Owl

miniGPT-4的热度至今未减,距离LLaVA的推出也不到半个月,而新的看图聊天模型已经问世了。今天要介绍的模型是一款类似于miniGPT-4和LLaVA的多模态对话生成模型,它的名字叫mPLUG-Owl。论文链接:https://arxiv.org/abs/2304.14178项目链接:https://github.com/X-PLUG/mPLUG-Owl在线demo:https://modelscope.cn/studios/damo/mPLUG-Owl/summarymPLUG-Owl展现出强大的图文理解能力:以下是本文作者的试用结果:本文贡献如下:提出一种新的模块化的训练多模态大模型