复旦_草庐IT

国产化复旦微电子 FMQL45T900 FPGA开发板（替代Xilinx ZYNQ ARM+FPGA 7045开发板）

-FM4550国产化开发板功能接口 --系统框图 -01-产品参数 -1.主要参数系统1：FPGA型号：FMQL45T900PS内核：四核ARMCortex-A7，主频800MHzPS端内存：1GBDDR3,数据速率1066Mbps，32bitPL端内存：1GBDDR3,数据速率1600Mbps，32bitGTX收发器：16X速度等级：对标进口-2 芯片级别：工业级工作温度：-40℃-100℃ 逻辑单元数量：350k查找表：218600 乘法器：900触发

复旦微ZYNQ7020全国产替代方案设计

现在国产化进度赶人，进口的芯片只做了个功能验证，马上就要换上国产的。国内现在已经做出来zynq的只有复旦微一家，已经在研制的有上海安路，还有成都华微（不排除深圳国威也在做，毕竟这个市场潜力很大）。使用场景在哪里首先明确一点，Zynq这类ARM+FPGA的异构SOC芯片绝不适用于低成本方案，为什么？使用这类芯片几乎都需要配套DDR3，一片DDR3的价格大概在一百元，这还是进口的价格，国产的更贵；只要使用DDR，就至少需要八层电路板，投一次板多少钱？2千元以上；如果使用复旦微家的FMQL，就会捆绑销售他家的norflash，因为别家的和他不兼容。而且这个norflash还是军温级的，一片1千元以上

复旦MOSS大模型开源了「中国版ChatGPT」，Github和Hugging Face同时上线

最近，ChatGPT非常火，从ChatGPT3到ChatGPT4，都非常火。无论是否为互联网行业的，多少都听到过关于ChatGPT的消息。虽然百度、阿里等互联网巨头都已经宣布将会推出相关的类ChatGPT产品。但目前还未有成型的产品上线。而昨日，复旦团队发布国内首个类ChatGPT模型MOSS引发广泛关注。MOSS是什么?从官网介绍来看，MOSS是一个拥有160亿参数的开源对话语言模型。它由约7000亿中英文及代码单词预训练得到，精度要求不那么高的话，甚至可以在单张3090显卡上运行。MOSS支持中英双语，拥有多轮对话和使用多种插件双重能力，具备搜索引擎、文生图、计算器、方程求解的“技能点”。

刷榜「代码生成」任务！复旦等发布StepCoder框架：从编译器反馈信号中强化学习

大型语言模型（LLMs）的发展极大地推动了代码生成领域的发展，之前有工作将强化学习（RL）与编译器的反馈信号集成在一起，用于探索LLMs的输出空间，以提高代码生成质量。但当下还存在两个问题：1.强化学习探索很难直接适配到「复杂的人类需求」，即要求LLMs生成「长序列代码」；2.由于单元测试可能无法覆盖复杂的代码，因此使用未执行的代码片段来优化LLMs是无效的。为了解决这些挑战，复旦大学、华中科技大学、皇家理工学院的研究人员提出了一种用于代码生成的新型强化学习框架StepCoder，由两个主要组件组成：1.CCCS通过将长序列代码生成任务分解为代码完成子任务课程来解决探索挑战；2.FGO通过屏蔽

复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持

最近，OpenAI的视频生成模型Sora爆火，生成式AI模型在多模态方面的能力再次引起广泛关注。现实世界本质上是多模态的，生物体通过不同的渠道感知和交换信息，包括视觉、语言、声音和触觉。开发多模态系统的一个有望方向是增强LLM的多模态感知能力，主要涉及多模态编码器与语言模型的集成，从而使其能够跨各种模态处理信息，并利用LLM的文本处理能力来产生连贯的响应。然而，该策略仅限于文本生成，不包含多模态输出。一些开创性工作通过在语言模型中实现多模态理解和生成取得了重大进展，但这些模型仅包含单一的非文本模态，例如图像或音频。为了解决上述问题，复旦大学邱锡鹏团队联合MultimodalArtProject

【PCIE709-F】基于复旦微JFM7VX690T80 FPGA的全国产化8通道光纤双FMC接口数据处理平台

板卡概述 PCIE709-F是一款基于上海复旦微电子的28nm7系列FPGAJFM7VX690T80的全国产化8通道光纤双FMC接口数据预处理平台，该板卡采用复旦微的高性能7系列FPGA作为实时处理器，实现4路10GSFP+光纤以及1路QSFP+通信接口、实现1路X8PCIE数据传输的功能。板载2组独立的64位DDR3SDRAM大容量缓存。板卡具有2个FMC+扩展接口，可以插不同的子板以实现不同的接口功能，可以快速搭建起基于FMC接口PCIE总线的数据采集、处理平台。该板卡还支持1路RJ45千兆以太网口，通过以太网实现与上位机的数据交互。该板卡为标准的全高PCIE板卡，可以插在标准的P

NeRF成为过去？三维重建迈向3D GS新时代！（复旦大学最新综述）

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解3DGaussianSplatting（3D-GS）已成为计算机图形学领域的一个重大进步，它提供了明确的场景表示和新颖的视图合成，而不依赖于神经网络，如神经辐射场（NeRF）。这项技术在机器人、城市地图、自主导航和虚拟现实/增强现实等领域有着不同的应用。鉴于3DGaussianSplatting的日益流行和研究的不断扩展，本文对过去一年的相关论文进行了全面的综述。我们根据特征和应用对分类法进行了调查，介绍了3DGaussianSplatting的理论基础。我们通过这项调查的目标是让新的研究人员熟悉3DGaussianSp

GPT-4/Gemini大翻车，做旅行攻略成功率≈0%！复旦OSU等华人团队：Agent不会复杂任务规划

AI智能体，是目前学界炙手可热的前沿话题，被众多专家视为大模型发展的下一个方向。然而，最近复旦、俄亥俄州立大学、宾夕法尼亚州立大学、MetaAI的研究者们发现，AI智能体在现实世界的规划能力还很差。他们对GPT-4Turbo、GeminiPro、Mixtral8x7B等进行了全面评估，发现这些大模型智能体全部翻车了！即使是表现最好的，成功率也仅有0.6%。对于大模型规划能力和智能体感兴趣的研究人员，以后又有一个新榜可以刷了。（手动狗头）项目主页：https://osu-nlp-group.github.io/TravelPlanner/看来，让智能体在现实世界中完成复杂规划任务的那一天，还远着

扩散模型图像理解力刷新SOTA！字节复旦团队提出全新「元提示」策略

Text-to-image（T2I）扩散模型在生成高清晰度图像方面显示出了卓越的能力，这一成就得益于其在大规模图像-文本对上的预训练。这引发了一个自然的问题：扩散模型是否可以用于解决视觉感知任务？近期，来自字节跳动和复旦大学的技术团队提出了一种简单而有效的方案：利用扩散模型处理视觉感知任务。论文地址：https://arxiv.org/abs/2312.14733开源项目：https://github.com/fudan-zvg/meta-prompts团队的关键洞察是引入可学习的元提示（metaprompts）到预训练的扩散模型中，以提取适合特定感知任务的特征。技术介绍团队将text-t

随意指定CLIP关注区域！上交复旦等发布Alpha-CLIP：同时保持全图+局部检测能力

CLIP是目前最流行的视觉基座模型，其应用场景包括但不限于：与LLM大语言模型结合成为视觉多模态大模型；作为图像生成(StableDiffusion)、点云生成(Point-E)的conditionmodel，实现image-to-3D；用于指导NeRF的优化方向从而实现text-to-3D；本身用于开放类别的识别和检测。但CLIP必须以整张图片作为输入并进行特征提取，无法关注到指定的任意区域，不过自然的2D图片中往往包含不同的物体，part和thing，如果能由用户或检测模型指定需要关注的区域，在图像编码的过程就确定需要关注的对象，将会提升CLIP模型的可控制性和区域检测能力。为此，上海交通