万_草庐IT

万字长文教你如何做出 ChatGPT

简单来说，ChatGPT是自然语言处理（NLP）和强化学习（RL）的一次成功结合，考虑到读者可能只熟悉其中一个方向或者两个方向都不太熟悉，本文会将ChatGPT涉及到的所有知识点尽可能通俗易懂的方式展现出来，有基础的同学可以选择性跳过一些内容。GPT的进化史本节的主要目的是介绍自然语言处理中语言模型的一些基础知识，理解语言模型到底在做什么。GPT所谓的GPT(GenerativePre-trainedTransformer)，其实是GenerativePreTrainingofalanguagemodel（语言模型）。那什么是语言模型呢？可以简单地把语言模型理解为“给定一些字或者词，预测下一个

文教做出 nbsp data data-tool 人工智能

【万字长文】使用 LSM-Tree 思想基于.Net 6.0 C# 实现 KV 数据库（案例版）

文章有点长，耐心看完应该可以懂实际原理到底是啥子。这是一个KV数据库的C#实现，目前用.NET6.0实现的，目前算是属于雏形，骨架都已经完备，毕竟刚完工不到一星期。当然，这个其实也算是NoSQL的雏形，有助于深入了解相关数据库的内部原理概念，也有助于实际入门。适合对数据库原理以及实现感兴趣的朋友们。整体代码，大概1500行，核心代码大概500行。为啥要实现一个数据库大概2018年的时候，就萌生了想自己研发一个数据库的想法了，虽然，造轮子可能不如现有各种产品的强大，但是，能造者寥寥无几，而且，造数据库的书更是少的可怜，当然，不仅仅是造数据库的书少，而是各种各样高级的产品的创造级的书都少。虽然，现

C#LSM-Tree summary blockquote gt 其他数据库

【万字长文】使用 LSM-Tree 思想基于.Net 6.0 C# 实现 KV 数据库（案例版）

文章有点长，耐心看完应该可以懂实际原理到底是啥子。这是一个KV数据库的C#实现，目前用.NET6.0实现的，目前算是属于雏形，骨架都已经完备，毕竟刚完工不到一星期。当然，这个其实也算是NoSQL的雏形，有助于深入了解相关数据库的内部原理概念，也有助于实际入门。适合对数据库原理以及实现感兴趣的朋友们。整体代码，大概1500行，核心代码大概500行。为啥要实现一个数据库大概2018年的时候，就萌生了想自己研发一个数据库的想法了，虽然，造轮子可能不如现有各种产品的强大，但是，能造者寥寥无几，而且，造数据库的书更是少的可怜，当然，不仅仅是造数据库的书少，而是各种各样高级的产品的创造级的书都少。虽然，现

C#LSM-Tree summary blockquote gt 其他数据库

《nushell一将功成，万awk骨枯》---对比nushell和powershell（第二集）

2022-10-05nushell版本=v0.69.1Nushellpowershellawk对比第二集博客园第一章对比awk，nushell，powershell的安装1nushell是mit协议的，rust开发的，【单文件程序！！！】，所以nushell的安装真香！2从这点上来看awk完败。Awk文件太多不绿色。Awk就占个内置的先机。3powershell是绿色软件，从github下载后，解压便可执行，但它是单目录中，有多个文件和子目录。这比awk安装在多个不同的子目录要好。我还为大家做了linux一键安装powershell的脚本。安装脚本在码云，Linux下一键安装powersh

一将 nushell span font quot 其他语言

《nushell一将功成，万awk骨枯》---对比nushell和powershell（第二集）

2022-10-05nushell版本=v0.69.1Nushellpowershellawk对比第二集博客园第一章对比awk，nushell，powershell的安装1nushell是mit协议的，rust开发的，【单文件程序！！！】，所以nushell的安装真香！2从这点上来看awk完败。Awk文件太多不绿色。Awk就占个内置的先机。3powershell是绿色软件，从github下载后，解压便可执行，但它是单目录中，有多个文件和子目录。这比awk安装在多个不同的子目录要好。我还为大家做了linux一键安装powershell的脚本。安装脚本在码云，Linux下一键安装powersh

一将 nushell span font quot 其他语言

万字长文，带你轻松学习 Spark

大家好，我是大D。今天给大家分享一篇Spark核心知识点的梳理，对知识点的讲解秉承着能用图解的就不照本宣科地陈述，力求精简、通俗易懂。希望能为新手的入门学习扫清障碍，从基础概念入手、再到原理深入，由浅入深地轻松掌握Spark。1、初识SparkSpark不仅能够在内存中进行高效运算，还是一个大一统的软件栈，可以适用于各种各样原本需要多种不同的分布式平台的场景。背景Spark作为一个用来快速实现大规模数据计算的通用分布式大数据计算引擎，是大数据开发工程师必备的一项技术栈。Spark相对Hadoop具有较大优势，但Spark并不能完全替代Hadoop。实际上，Spark已经很好地融入了Hadoop

Spark 万 span class cl-preview-section 求职面试

万字长文，带你轻松学习 Spark

大家好，我是大D。今天给大家分享一篇Spark核心知识点的梳理，对知识点的讲解秉承着能用图解的就不照本宣科地陈述，力求精简、通俗易懂。希望能为新手的入门学习扫清障碍，从基础概念入手、再到原理深入，由浅入深地轻松掌握Spark。1、初识SparkSpark不仅能够在内存中进行高效运算，还是一个大一统的软件栈，可以适用于各种各样原本需要多种不同的分布式平台的场景。背景Spark作为一个用来快速实现大规模数据计算的通用分布式大数据计算引擎，是大数据开发工程师必备的一项技术栈。Spark相对Hadoop具有较大优势，但Spark并不能完全替代Hadoop。实际上，Spark已经很好地融入了Hadoop

Spark 万 span class cl-preview-section 求职面试

万字长文！对比分析了多款存储方案，KeeWiDB最终选择自己来

大数据时代，无人不知Google的“三驾马车”。“三驾马车”指的是Google发布的三篇论文，介绍了Google在大规模数据存储与计算方向的工程实践，奠定了业界大规模分布式存储系统的理论基础，如今市场上流行的几款国产数据库都有参考这三篇论文。《TheGoogleFileSystem》，2003年《MapReduce:SimplifiedDataProcessingonLargeClusters》，2004年《Bigtable:ADistributedStorageSystemforStructuredData》，2006年其中，Bigtable是数据存储领域的经典论文，这篇论文首次对外完整、系

KeeWiDB 万 Bucket strong li 其他数据库

万字长文！对比分析了多款存储方案，KeeWiDB最终选择自己来

大数据时代，无人不知Google的“三驾马车”。“三驾马车”指的是Google发布的三篇论文，介绍了Google在大规模数据存储与计算方向的工程实践，奠定了业界大规模分布式存储系统的理论基础，如今市场上流行的几款国产数据库都有参考这三篇论文。《TheGoogleFileSystem》，2003年《MapReduce:SimplifiedDataProcessingonLargeClusters》，2004年《Bigtable:ADistributedStorageSystemforStructuredData》，2006年其中，Bigtable是数据存储领域的经典论文，这篇论文首次对外完整、系

KeeWiDB 万 Bucket strong li 其他数据库

【敏捷转型，效能提升】万字长文敏捷转型实践系列分享

作者：王先科、田野、王锁、刘双、马越、刘思琪摘要：本文总结了近4年以来部门实施敏捷转型的实践及经验教训，从5个方面进行了阐述：文化建设下好先手棋持续敏捷实践祭出连环招沉淀实践指引把牢定盘星效能度量定准风向标洞察分析点亮启明灯一.概述“敏捷就是快速应对变化，解决不确定性问题和维护复杂产品”，没错，这是敏捷最核心的价值体现。在多部门协作、多业务类型等复杂场景下，如何落地敏捷理念、思维、框架、方法、工具和实践，实现组织敏捷、技术敏捷、项目敏捷，进而实现业务敏捷，一直是我们追求的目标。近4年来，市场与平台运营中心-平台研发部基于Scrum框架进行了很多的尝试和实践，有成功的经验，也有失败的教训。本文分

敏捷效能 strong 的敏捷开发