草庐IT

超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能

OpenAI在九月份为ChatGPT添加了图像输入功能,允许用户使用上传一张或多张图像配合进行对话,这一新兴功能的背后是一个被OpenAI称为GPT4-Vision的多模态(vision-language)大模型。鉴于OpenAI对「闭源」的坚持,多模态开源社区如雨后春笋般涌出了众多优秀的多模态大模型研究成果,例如两大代表作MiniGPT4和LLaVA已经向用户们展示了多模态对话和推理的无限可能性。在多模态大模型(LargeMulti-modalModels)领域,高效的模态对齐(modalityalignment)是至关重要的,但现有工作中模态对齐的效果却往往受制于缺少大规模的高质量的「图像

灾难恢复团队必须测试的五大 IT 灾难场景

虽然大多数组织都做好了面对小规模中断的准备,但他们不能仅仅因为更大、更复杂的危机似乎不太可能发生而忽视它。IT团队准备应对的典型中断是常见事件,例如磁盘故障或断电。但是,企业必须解决更多IT灾难场景才能得到充分保护。许多IT灾难的根源通常是负责恢复的人员没有考虑硬件故障或意外或恶意丢失数据以外的任何事情。遗憾的是,威胁和场景总是在不断变化,因此灾难恢复计划也必须这样做。有许多形式的灾难会影响IT服务的可用性,有些灾难可能比其他组织更与单个组织相关。评估哪些风险最有可能威胁到公司的基础设施和服务是一个谨慎的举动。风险评估矩阵是一种工具,可以帮助确定灾难发生的可能性及其严重程度。以下是灾难恢复团队

网络规模、训练学习速度提升,清华团队在大规模光电智能计算方向取得进展

随着大模型等人工智能技术的突破与发展,算法复杂度剧增,对传统计算芯片带来了算力和功耗的双重挑战。近年来,以光计算为基础、通过光电融合的方式构建光电神经网络的计算处理方法已经成为国际热点研究问题,有望实现计算性能的颠覆性提升。然而,光电神经网络的前向数学模型由对光场的精准物理建模得到,计算复杂度高、参数冗余度大;其学习机制沿用人工神经网络常用的梯度下降算法,面向大规模光电神经网络时优化速度慢、资源消耗高、收敛效果差。因此,现有学习架构仅能支撑小规模光电神经网络的训练,其网络容量和特征捕获能力不足以有效处理ImageNet等大型复杂数据集。近日,清华大学电子工程系方璐副教授课题组提出了面向大规模光

我的眼睛就是尺!80亿参数OtterHD带你「清明上河图」数骆驼!南洋理工华人团队打造

想知道《清明上河图》里面有多少头骆驼吗?来看看这个支持超高清输入的多模态模型吧。最近,来自南洋理工的华人团队基于Fuyu-8B打造出了80亿参数的多模态大模型OtterHD。论文地址:https://arxiv.org/abs/2311.04219与受限于固定尺寸视觉编码器的传统模型不同,OtterHD-8B具有处理灵活输入尺寸的能力,确保了其在各种推理需求下的通用性。同时,团队还提出了一个全新的基准测试MagnifierBench,可以细致地评测LLM辨别大尺寸图像中物体的微小细节和空间关系的能力。结果显示,OtterHD-8B的表现,尤其是在直接处理高分辨率输入时,远远优于同类模型。效果演

Open Vocabulary Detection 开放世界目标检测竞赛 2023获胜团队方案分享

OVD技术简介 目标检测是计算机视觉领域中的一项核心任务,其主要目标是让计算机能够自动识别图片中目标的类别,并准确标示每个目标的位置。目前,主流的目标检测方法主要针对闭集目标的开发,即在任务开始之前需要对待检测目标进行类别定义,并进行人工数据标注,通过有监督模型的训练来实现目标检测。这种方法通常适用于待检测目标数量较少的情况,一般限定在几十个类别以内。然而,当待检测目标的类别数量增加到几千甚至万级时,以上述方式进行数据标注已经无法满足需求。同时,已经训练好的模型也无法应对新出现的类别。当新的类别出现时,需要手动进行标注并重新训练模型,整体效率较低。开放词集目标检测(OpenVocabulary

南开&山大&北理工团队开发trRosettaRNA:利用Transformer网络自动预测RNA 3D结构

RNA3D结构预测是一个长期存在的挑战。受最近蛋白质结构预测领域突破的启发,南开大学、山东大学以及北京理工大学的研究团队开发了trRosettaRNA,这是一种基于深度学习的自动化RNA3D结构预测方法。trRosettaRNA流程包括两个主要步骤:通过transformer网络进行1D和2D几何形状预测;以及通过能量最小化进行的3D结构折叠。基准测试表明trRosettaRNA优于传统的自动化方法。在CASP15和RNA-Puzzles实验的盲测中,对天然RNA的自动trRosettaRNA预测与人类的顶级预测具有竞争力。当通过均方根偏差的Z分数进行测量时,trRosettaRNA的性能也优

预测token速度翻番!Transformer新解码算法火了,来自小羊驼团队

小羊驼团队的新研究火了。他们开发了一种新的解码算法,可以让模型预测100个token数的速度提高1.5-2.3倍,进而加速LLM推理。比如这是同一个模型(LLaMa-2-Chat7B)面对同一个用户提问(苏格拉底采用了哪些方法来挑战他那个时代的主流思想?)时输出回答的速度:左边为原算法,耗时18.12s,每秒约35个token;右边为该算法,耗时10.4s,每秒约60个token,明显快了一大截。简单来说,这是一种并行解码算法,名叫“LookaheadDecoding” (前向解码)。它主要利用雅可比(Jacobi)迭代法首次打破自回归解码中的顺序依赖性 (众所周知,当下大模型基本都是基于自回

浅析Redis大Key | 京东云技术团队

一、背景在京东到家购物车系统中,用户基于门店能够对商品进行加车操作。用户与门店商品使用Redis的Hash类型存储,如下代码块所示。不知细心的你有没有发现,如果单门店加车商品过多,或者门店过多时,此Key就会越来越大,从而影响线上业务。userPin:{storeId:{门店下加车的所有商品基本信息},storeId:{门店下加车的所有商品基本信息},......}二、BigKey的界定和如何产生2.1、BigKey的界定BigKey称为大Key,通常以Key对应Value的存储大小,或者Key对应Value的数量来进行综合判断。对于大Key也没有严格的定义区分,针对String与非Strin

【中国知名企业高管团队】系列17:字节跳动

大家好!今天华研荟的中国知名企业高管团队带大家了解字节跳动。说到字节跳动,不是或者不关注互联网圈子的小伙伴可能不一定知道这是啥,但是说到今日头条、抖音、西瓜视频、火山小视频等,我相信很多人就明白了——这些产品的背后就是字节跳动这个公司,当然了,字节跳动的业务板块比前面说的这几个国民级应用要多很多。字节跳动的崛起,让很多老牌的互联网大厂十分害怕。事实证明,这个2012年才成立的后生(按年龄的话今天才11岁,算是少年)已经从BAT里面抢走了很多市场份额了,更不用说传统的新浪、搜狐、网易。字节跳动从今日头条做起,把腾讯、网易的新闻业务打得落花流水,依托抖音的快速崛起,在电商这块切走了很大一块蛋糕,头

android - 要求图形团队设计 Android 应用程序 UI 时的最佳实践

我不确定这在Android中是否可行,它在各种设备上支持多种外形规范。这是我们通常面临的最痛苦的场景之一。场景:设计团队为应用程序创建UI图形,其中包含所有UI小部件及其位置预定义,如按钮、编辑文本等。这是我们需要在应用程序中使用的UI。问题:无法链接UI小部件,例如在图像上提交的实际位置上的提交按钮。有没有办法将它们联系起来?它适用于所有外形规范吗?当前的解决方案:使用布局从头开始重新创建整个UI及其所有组件。据我所知,在iOS中,实际上可以将小部件放在具有透明背景的顶部,并且开箱即用。这是可能的,因为您可以使用x和y的绝对值。--编辑--我想从上面的描述中不是很清楚。问题不在于使用