大学生问AI

厦门大学、Intel、大疆联合出品，从网络视频中学习零样本图像匹配大模型

图像匹配是计算机视觉的一项基础任务，其目标在于估计两张图像之间的像素对应关系。图像匹配是众多视觉应用如三维重建、视觉定位和神经渲染 (neuralrendering) 等的基础和前置步骤，其精确度和效率对于后续处理十分重要。传统算法（SIFT）在面临长基线或极端天气等复杂场景时，其匹配的准确度和密度往往有限。为了解决这些问题，近年来，基于深度学习的匹配模型逐渐流行。然而，由于缺乏大规模且多样化的具有真值标签的训练数据，目前的匹配模型通常是在ScanNet和MegaDepth上分别训练室内和室外两个模型。这种针对特定场景的训练限制了模型对zero-shot场景的泛化，无法扩展至未知场景中。此外，

就是这么火！Redis也入坑了向量数据库，为生成式AI开发加了一把柴

作者丨ShritamaSaha编译丨诺亚出品|51CTO技术栈（微信号：blog51cto）向量数据库，一个从去年开始火到今年的概念，通常被认为是大模型的记忆海绵。作为一种专门用于存储、管理、查询、检索向量的数据库，向量数据库可以说是大模型落地行业场景必不可少的组成部分。当然也有人曾指出，向量数据库这波热潮有不少炒作成分，到底是虚火还是实火，或许还要等时间验证。不过，这个赛道上入局的玩家已经越来越多了。比如大家耳熟能详的Redis。Redis最近推出了一款名为RedisVectorLibrary的工具，旨在为生成式AI应用开发提供更为高效便捷的支持。该库整合于RedisEnterprise平台

开辟天地！苹果股东大会有史以来最强AI信号！CEO库克终于正式宣战GenAI，2024重新定义未来的大招产品会是什么

撰稿| 云昭、诺亚出品|51CTO技术栈（微信号：blog51cto）2月28日，就在刚刚宣布放弃造车项目一天后，苹果公司CEO蒂姆·库克释放出一个苹果历史上前所有未有的强烈信号：breaknewgroundinGenAI（在生成式AI上开辟新天地）。在苹果公司的年度股东大会上，库克表示，苹果正在向人工智能领域投入大量资金，表明这家iPhone制造商正在火热地拥抱席卷整个科技圈的生成式人工智能。库克进一步解释道：苹果公司看到了生成式AI的巨大突破潜力，这也是为什么目前正在这一领域进行大量投资的原因。“我们相信，GenAI将为苹果用户在生产力、解决问题等方面带来变革性的机会。”虽然苹果公司尚未推

几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型：从质疑Scaling到成为Scaling

在标准的UNet结构中，longskipconnection上的scaling系数一般为1。然而，在一些著名的扩散模型工作中，比如Imagen，Score-basedgenerativemodel，以及SR3等等，它们都设置了，并发现这样的设置可以有效加速扩散模型的训练。质疑Scaling然而，Imagen等模型对skipconnection的Scaling操作在原论文中并没有具体的分析，只是说这样设置有助于加速扩散模型的训练。首先，这种经验上的展示，让我们并搞不清楚到底这种设置发挥了什么作用？另外，我们也不清楚是否只能设置，还是说可以使用其他的常数？不同位置的skipconnection的「

当AI遇到ERP会发生哪些"化学反应"

生成式人工智能(GenAI)是一项新兴技术，在营销和销售等各个业务领域越来越受欢迎。通过分析数据，GenAI可以提高运营效率和供应链弹性。什么是供应链中的生成式人工智能在消费者层面，GenAI流程包括在文本、图像或视频字段中输入命令或问题，从而促使人工智能生成新内容。GenAI模型通常在大规模数据集上进行训练，当用户输入新数据时，应用程序会使用新数据及其之前学到的知识来创建新内容。用户可以使用涵盖供应链各个方面的数据来训练GenAI，包括库存、物流和需求。通过分析公司的信息，GenAI可以帮助改善供应链管理和弹性。生成式人工智能在供应链中的7个应用场景1.需求预测随着消费者将支出从服务转向商品

工信部：发布国内首个个人信息保护 AI 大模型“智御”助手

2月29日消息，工业和信息化部日前发布关于2023年第四季度电信服务质量的通告。通告称，深化App用户权益保护。制定《移动互联网应用程序（App）合规开发管理测评规范》《小程序个人信息保护规范》等系列标准，指引企业依法合规经营。实施“SDK用户权益保护行业协同联动计划”，组织评选移动互联网应用服务能力提升优秀案例，推动共建健康行业生态。发布国内首个个人信息保护AI大模型“智御”助手，为App开发运营、检测防护、政策解读等提供智能化服务。着力整治“摇一摇”乱跳转等突出问题，公开通报81款违规App和SDK，持续净化移动互联网服务环境。IT之家查询获悉，“智御”人工智能大模型由中国信息通信研究院研

ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

“绝不是简单的抠图。”ControlNet作者最新推出的一项研究受到了一波高度关注——给一句prompt，用StableDiffusion可以直接生成单个或多个透明图层（PNG）！例如来一句：头发凌乱的女性，在卧室里。Womanwithmessyhair,inthebedroom.可以看到，AI不仅生成了符合prompt的完整图像，就连背景和人物也能分开。而且把人物PNG图像放大细看，发丝那叫一个根根分明。再看一个例子：燃烧的柴火，在一张桌子上，在乡下。Burningfirewood,onatable,inthecountryside.同样，放大“燃烧的火柴”的PNG，就连火焰周边的黑烟都能分

全新「多模态」生图AI文字渲染暴打Midjourney+DALL·E 3！5亿融资Karpathy都投了

文生图领域作为一个跑出「10人团队年收入过亿美金初创公司」的赛道，已经成了AI创业公司掘第一桶金的最佳起点。但是在谷歌，微软等大厂都已经花了大量资源去布局的领域，留给初创公司的机会到底在哪里？最近一家名为Ideogram的文生图工具，凭借优秀的文字渲染能力，成功融资8000万美元！包括JeffDean和AndrejKarpathy在内的一众硅谷大佬和知名机构都是它的投资人。只要在prompt里将文字打上去，就能非常自然可控地出现在生成的图片中。而且生成的图片不仅能简单的以平面文字的形式出现在图片之中，还能根据用户的要求，生成自然的悬浮文字，或者是立体的文字。甚至用一句提示词，它能直接给你画出图

AI生成视频还有王炸？阿里EMO惊艳登场，让小李子rap、高启强普法

撰稿| 伊风整个2月，Sora可谓是当之无愧的AI明星，公布的两波AI视频吸睛无数。没想到在2月末尾，还能有另一位视频生成“选手”让我们感到惊喜！那就是阿里新推出的视频生成框架——EMO(EmotePortraitAlive)。EMO基于扩散模型，只需要提供图像和音频就可以生成富有表现力的肖像视频。从公布的视频来看，EMO在生成肖像的动作、口型及表情等方面均表现不俗，展现了与Sora一样丰富的“可玩性”，能完成许多具有想象力和创造性的各类视频。EMO驱动的肖像不仅可以唱歌、口语对白，甚至还能为你秀一段快嘴说唱。示例视频中展现了EMO多样的生成能力和优越的实现效果，含有阿里团队的大量“官方整活”

微软发布财务Copilot 旨在用AI来彻底改变电子表格

微软新发布的AI助手旨在通过自动化繁琐的数据任务来帮助财务团队提高效率，此外还可以帮助团队在日益增长的财务数据池中搜索正确的信息。微软企业应用市场副总裁EmilyHe在接受记者采访时表示：“信不信由你，最受欢迎的ERP系统是Excel。我们为财务部门开发Copilot的原因是，我们收到了许多客户的请求，他们希望使用Excel来完成他们的ERP任务，他们希望能够提取数据，使所有识别差异变得更加容易。”“微软是独一无二的，因为我们拥有Excel，我们可以利用Excel计算引擎，也可以利用ERP数据，使财务专业人员的工作更容易、更流畅”，她补充道。建立在微软去年发布的现有Copilot技术之上的Co