草庐IT

就能搞

全部标签

大视频模型是世界模型?DeepMind/UC伯克利华人一作:预测下一帧就能改变世界

没人怀疑,OpenAI开年推出的史诗巨作Sora,将改变视频相关领域的内容生态。但GoogleDeepMind、UC伯克利和MIT的研究人员更进一步,在他们眼里,「大视频模型」也许能够像世界模型一样,真正的做到理解我们身处的这个世界。论文地址:https://arxiv.org/abs/2402.17139在作者看来,视频生成将彻底改变物理世界的决策,就像语言模型如何改变数字世界一样。研究人员认为,与文本类似,视频可以作为一个统一的接口,吸收互联网知识并表征不同的任务。例如,经典的计算机视觉任务可以被视为下一代帧生成任务(next-framegenerationtask)。模型可以通过生成操作

甲壳虫ADB助手-让你轻松不用电脑就能卸载电视自带软件

甲壳虫ADB助手是一款非常使用的安卓ADB调试工具,它适用于各种安卓系统设备,包括手机、平板、手表和电视等等,可以帮助用户直接在手机上对设备进行ADB调试,而且不需要ROOT,支持无线配对连接,让用户能够更加轻松地玩转安卓系统。很多安卓系统的设备都会有一些没什么实际用处的预装APP,要想删除这些APP又要有ADB权限,操作也很麻烦。甲壳虫ADB助手可以帮助大家直接通过手机实现远程ADB调试##特色介绍可通过WIFI和OTG数据线连接ADB调试(不需要root);支持Android11无线配对调试;免root运行fastboot命令,可以为其他手机进行OTG刷机;对常用功能进行了GUI封装,无需

单GPU就能压缩模型,性能不变参数少25%!微软提出模型稀疏化新方法

众所周知,对于大语言模型来说,规模越大,所需的算力越大,自然占用的资源也就越多。研究人员于是乎把目光转到了这片领域,即模型的稀疏化(Sparsification)。今天要介绍的SliceGPT,则可以实现模型的事后稀疏。也就是说,在一个模型训练完了以后再进行稀疏化操作。该模型由微软研究院和苏黎世联邦理工学院联合发表在了arXiv上。目前主流的稀疏化技术面临着挺多挑战和困难。比方说,需要额外的数据结构,而且在当下的硬件条件下,速度有限。SliceGPT就能很好的解决这些问题——它能用一个较小的矩阵来替换每个权重矩阵,从而降低网络的嵌入维度。而实际结果也是非常不错的,在LLAMA-270B、OPT

怎么将视频转为音频mp3格式?这些转换方法一分钟就能学会

 随着现在娱乐方式的多样化,我们可以在闲暇时间做一些令人放松的事情。对于我来说,就很喜欢一边听歌一边发呆。我之前喜欢的一位歌手,他的翻唱歌曲以及原创音乐都得到了网友很高的评价,但是有些歌曲在平台上没有音源,我只能去搜索相关视频来播放。后来我发现其实可以使用软件来把视频转换成音频,就可以专心听歌了。那你们知道视频如何转音频吗?下面给大家分享几个好用简便的转换方法,一起来学习吧。视频转音频技巧一:使用文字转语音软件来实现转换使用端口:电脑端实用指数:★★★★☆这款迅捷文字转语音是我之前偶然发现的一款语音文字转换工具,后来我发现,它不止可以将文字转换为语音,还能对视频进行转换。它可以将视频

手机就能逛全国的博物馆,有些很小众,你一定没见过

今天分享全国七个不同主题、风格的博物馆和展览,有黄河流域文明发展史的“齐晋——穿越山河的千年之约“展览。齐晋——穿越山河的千年之约还有海伦•福斯特•斯诺镜头记录下的旧社会及抗战时期中国风貌照片展,海伦•福斯特•斯诺纪念图片巡回展也有位于厦门的石雕艺术博物馆展出的唐宋60多尊菩萨、力士、飞天等石雕艺术文物展、石雕艺术博物馆厦门石雕艺术博物馆当然,还有浙江美术馆”第四届杭州纤维艺术三年展“,在这里你可以看到不同材质、工艺的纤维制品和艺术品,第四届杭州纤维艺术三年展最后我们会来到地处中国西北边陲,亚欧大陆腹地的——新疆,参观新疆文物,探寻同属中华民族但又具有别样风情的西域文化发展历史。编辑搜图锦绣西

无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型

OpenAI的ChatGPT能够理解各种各样的人类指令,并在不同的语言任务中表现出色。这归功于一种新颖的大规模语言模型微调方法——RLHF(通过强化学习对齐人类反馈)。RLHF方法解锁了语言模型遵循人类指令的能力,使得语言模型的能力与人类需求和价值观保持一致。目前,RLHF的研究工作主要使用PPO算法对语言模型进行优化。然而,PPO算法包含许多超参数,并且在算法迭代过程中需要多个独立模型相互配合,因此错误的实现细节可能会导致训练结果不佳。同时,从与人类对齐的角度来看,强化学习算法并不是必须的。论文地址:https://arxiv.org/abs/2304.05302v1项目地址:https:/

无缝衔接Stable Diffusion,一张照片几秒钟就能生成个性化图片-InstantID

        最近一段时间基于扩散模型的图像处理方法遍地开花,接下来为大家介绍一种风格化图像的方法InstantID,可以通过仅有一张人脸照片,几秒钟内生成不同风格的人物照片。与传统方法需要多张参考图像和复杂的微调过程不同,InstantID只需一张图像,而且无需复杂的训练或微调过程。这项技术能够生成高质量的个性化图像,保持个人特征的真实性,并且能够适应不同的视觉需求。        InstantID的操作流程非常简化,只需要提供一张照片,它就能根据这张照片生成很多不同风格的图片,同时保持这个人的面貌特征不变。与传统方法需要多张参考图像和复杂的微调过程不同,InstantID只需一张图像,

纯文本模型训出「视觉」表征!MIT最新研究:语言模型用代码就能作画

只会「看书」的大语言模型,有现实世界的视觉感知力吗?通过对字符串之间的关系进行建模,关于视觉世界,语言模型到底能学会什么?最近,麻省理工学院计算机科学与人工智能实验室(MITCSAIL)的研究人员对语言模型的视觉能力进行了系统的评估,从简单形状、物体到复杂场景,要求模型不断生成和识别出更复杂的视觉概念,并演示了如何利用纯文本模型训练出一个初步的视觉表征学习系统。论文链接:https://arxiv.org/abs/2401.01862由于语言模型无法以像素的形式输入或输出视觉信息,所以在研究中使用代码来渲染、表示图像。虽然LLM生成的图像看起来不像自然图像,但从生成结果,以及模型可以自我纠正来

从弱到强的泛化 如果人能造出比人更聪明的AI,那AI就能造出更聪明的AI, 研究中提出的主要结论和建议

图说明我们的方法。传统的机器学习侧重于人类监督比人类弱的模型的设置。对于最终的超级对齐问题,人类将不得不监督比他们聪明得多的模型。我们今天研究一个类似的问题:使用弱模型来监督强模型https://cdn.openai.com/papers/weak-to-strong-generalization.pdf为什么从弱到强的学习是可能的?一方面,强模型可以简单地学习模仿弱监管者,包括它的错误,因为这是我们天真地训练它去做的。另一方面,强大的预训练模型应该已经很好地表示了我们关心的与对齐相关的任务。例如,如果一个模型可以生成复杂的代码,那么它也应该直观地知道该代码是否忠实地遵循用户的指令。因此,为了

不引用组件库,就能使用它!怎么做到的?

最近看到了一个插件unplugin-vue-components,很好奇,他的作用是什么呢?我借一个小例子给大家说明。我们平时在使用ant-design-vue这类的UI组件库的时候,为了最后打包体积能小一些,都会采用按需加载的方式:import{createApp}from"vue";import{Button}from'ant-design-vue'importAppfrom'./App.vue'constapp=createApp(App)//按需加载app.use(Button)app.mount('#app')接着我们就可以在页面中去使用a-button了:哈哈哈手动按需加载其实我们