小规模_草庐IT

上云笔记 | 一图读懂字节跳动超大规模数据库产品技术演进之路

2023年11月，火山引擎于北京、上海、深圳三地先后举办了火山引擎公共云·城市分享会，大会以“乘云·向未来”为主题，将火山引擎承载字节跳动复杂、大规模、智能化业务中沉淀的实践经验与参会嘉宾进行了分享。根据会上几大核心话题梳理而成的系列《上云笔记》已出炉，接下来会陆续与大家见面，欢迎关注。今天要分享的是《字节跳动超大规模数据库产品技术演进之路》：获取完整演讲实录长按或扫码即可阅读

构建大规模数据存储解决方案：探索MongoDB的横向扩展

MongoDB是一个非常适合构建大规模数据存储解决方案的NoSQL数据库。它通过横向扩展的方式来应对不断增长的数据量和负载需求。下面将详细介绍MongoDB的横向扩展机制，并探索如何使用MongoDB来构建高性能、可伸缩的大规模数据存储解决方案。横向扩展是指通过将数据分布在多个节点上，以实现数据的分片和负载均衡，从而提高系统的性能和容量。在MongoDB中，横向扩展是通过分片（Sharding）功能来实现的。一、MongoDB分片的基本原理1、分片键（ShardKey）：分片键是指用于将数据分割成不同片段的字段。选择合适的分片键可以确保数据在各个片段之间均匀分布，避免数据热点和负载不均衡问题。

给定两个矩阵A和B，要求你计算它们的乘积矩阵AB。需要注意的是，只有规模匹配的矩阵才可以相乘。即若A有R a 行、C a 列，B有R b 行、C b 列，则只有C a

输入格式：输入先后给出两个矩阵A和B。对于每个矩阵，首先在一行中给出其行数R和列数C，随后R行，每行给出C个整数，以1个空格分隔，且行首尾没有多余的空格。输入保证两个矩阵的R和C都是正数，并且所有整数的绝对值不超过100。输出格式：若输入的两个矩阵的规模是匹配的，则按照输入的格式输出乘积矩阵AB，否则输出Error:Ca!=Rb，其中Ca是A的列数，Rb是B的行数。输入样例1：23123456347890-1-2-3-45678输出样例1：242022241653586328输入样例2：32382643-501732-115799688172输出样例2：Error:2!=3#includein

超越同级7B模型！中国团队开源大规模高质量图文数据集ShareGPT4V，大幅提升多模态性能

OpenAI在九月份为ChatGPT添加了图像输入功能，允许用户使用上传一张或多张图像配合进行对话，这一新兴功能的背后是一个被OpenAI称为GPT4-Vision的多模态（vision-language）大模型。鉴于OpenAI对「闭源」的坚持，多模态开源社区如雨后春笋般涌出了众多优秀的多模态大模型研究成果，例如两大代表作MiniGPT4和LLaVA已经向用户们展示了多模态对话和推理的无限可能性。在多模态大模型（LargeMulti-modalModels）领域，高效的模态对齐（modalityalignment）是至关重要的，但现有工作中模态对齐的效果却往往受制于缺少大规模的高质量的「图像

规模小、效率高：DeepMind推出多模态解决方案Mirasol 3B

多模态学习面临的主要挑战之一是需要融合文本、音频、视频等异构的模态，多模态模型需要组合不同来源的信号。然而，这些模态具有不同的特征，很难通过单一模型来组合。例如，视频和文本具有不同的采样率。最近，来自GoogleDeepMind的研究团队将多模态模型解耦成多个独立的、专门的自回归模型，根据各种模态的特征来处理输入。具体来说，该研究提出了多模态模型Mirasol3B。Mirasol3B由时间同步模态（音频和视频）自回归组件，以及用于上下文模态的自回归组件组成。这些模态不一定在时间上对齐，但是按顺序排列的。论文地址：https://arxiv.org/abs/2311.05698Mirasol3B

恶意 Telegram 机器人Telekopye 正进行大规模网络诈骗活动

根据研究，Telekopye背后的运作人员被称为“尼安德特人”，他们将犯罪企业作为合法公司来运营，内部人员具有不同分工和等级。他们通过地下论坛上广告招募，邀请新成员加入指定的Telegram频道，该频道用于与其他成员沟通并跟踪交易日志。该团伙行动的最终目标是进行卖家诈骗、买家诈骗或退款诈骗。卖家诈骗：攻击者冒充卖家并诱骗用户购买不存在的商品。如果受害者表示有兴趣购买该物品，攻击者会引诱受害者进行在线支付，并向他们提供一个网络钓鱼网站链接，该链接显示为合法的支付门户。但该网站会索取受害者的银行凭证或信用卡详细信息。买家诈骗：攻击者在该骗局中冒充买家，经过全面研究后瞄准受害者。他们表达了对某件商品

网络规模、训练学习速度提升，清华团队在大规模光电智能计算方向取得进展

随着大模型等人工智能技术的突破与发展，算法复杂度剧增，对传统计算芯片带来了算力和功耗的双重挑战。近年来，以光计算为基础、通过光电融合的方式构建光电神经网络的计算处理方法已经成为国际热点研究问题，有望实现计算性能的颠覆性提升。然而，光电神经网络的前向数学模型由对光场的精准物理建模得到，计算复杂度高、参数冗余度大；其学习机制沿用人工神经网络常用的梯度下降算法，面向大规模光电神经网络时优化速度慢、资源消耗高、收敛效果差。因此，现有学习架构仅能支撑小规模光电神经网络的训练，其网络容量和特征捕获能力不足以有效处理ImageNet等大型复杂数据集。近日，清华大学电子工程系方璐副教授课题组提出了面向大规模光

运筹系列67：大规模TSP问题的EAX遗传算法

1.算法介绍EAX是edgeassemblycrossover算子的缩写。本算法有Ynagata教授公布，目前在VLSI最大的几个案例上获得了best的成绩。另外目前MonoLisa100K问题的最优解也是由其公布，若能得到更优解，可以获得1000美元奖励。算法步骤如下：获得一系列初始解，选取两条路径A和B进行重叠拆解重叠后的路径形成一系列子路径，每一条子路径都是偶数条边，其中A和B交叉，称为AB-cycle按照一定的规则（随机或者启发式）选取边，称为E-set使用A和E-set中的边进行反向增删，得到一系列Intemidiate结果使用启发式算法将Intemidiate结果构建成soild结

材质界的ImageNet，大规模6维材质实拍数据库OpenSVBRDF发布

在计算图形学领域，材质外观刻画了真实物体与光线之间的复杂物理交互，通常可表达为随空间位置变化的双向反射分布函数（Spatially-VaryingBidirectionalReflectanceDistributionFunction，缩写为SVBRDF）。它是视觉计算中不可或缺的组成部分，在文化遗产、电子商务、电子游戏和视觉特效等领域中有着广泛的应用。在过去的二十年里，特别是深度学习流行后，学术界与工业界对高精度、多样化数字材质外观的需求不断增加。但由于技术上的挑战，采集大型数据库仍然十分困难，目前公开可用的材质外观实拍数据库的数量非常有限。为此，浙江大学计算机辅助设计与图形系统全国重点实验

ChatGPT规模化服务的经验与教训

2022年11月30日，OpenAI发布ChatGPT，以很多人未曾预料的速度迅速走红。与此同时，由于短时间内用户量的暴涨，导致服务器过载，迫使OpenAI停止新用户的注册。ChatGPT发布这一年，同样的情景发生了好几次。在最近的OpenAI开发日之后，使用量再度激增，随后OpenAI宣布暂停新用户使用其付费服务。这背后体现了大模型提供规模化服务时运维的重要性。EvanMorikawa是OpenAI的工程团队经理，目前他主要负责将ChatGPTAPI等工程产品和设计安全地推向全世界。在近期的一次演讲中，他分享了OpenAI在ChatGPT发布过程中面临的工程、产品和组织方面经历的挑战以及从中