草庐IT

一文掌握文本语义分割:从朴素切分、Cross-Segment到阿里SeqModel

前言之所以写本文,源于以下两点在此文《基于LangChain+LLM的本地知识库问答:从企业单文档问答到批量文档问答》的3.5节中,我们曾分析过langchain-chatchat项目中文本分割相关的代码,当时曾提到该项目中的文档语义分割模型为达摩院开源的:nlp_bert_document-segmentation_chinese-base (这是其论文)在此文《知识库问答LangChain+LLM的二次开发:商用时的典型问题及其改进方案》中,我们再次提到,langchain-chatchat的默认分块大小是chunk_size:250(详见configs/model_config.py,但

位图、布隆过滤器和哈希切分

文章目录1、位图1.1位图的基本概念1.2位图的实际应用1.3位图的实现2、布隆过滤器2.1什么是布隆过滤器2.2布隆过滤器的优缺点2.3布隆过滤器的使用场景2.4布隆过滤器的原理2.5布隆过滤器的误判2.6布隆过滤器的实现3、哈希切分1、位图1.1位图的基本概念位图是一种非常常用的数据结构,本质其实是一个二进制数组。位图和哈希表类似,都是进行映射,但又有不同。位图的每一位都用于表示数据的某种状态,例如存在或者不存在,并不表示数据本身。而哈希表时用来存放关键字key。位图更加适用于海量数据处理及分析。位图判断数据是否存在,则有两种状态,存在和不存在,那么可以使用一个二进制比特位来代表数据是否存

java操作PDF:转换、合成、切分

将PDF每一页切割成图片PDFUtils.cutPNG("D:/tmp/1.pdf","D:/tmp/输出图片路径/");将PDF转换成一张长图片PDFUtils.transition_ONE_PNG("D:/tmp/1.pdf");将多张图片合并成一个PDF文件PDFUtils.merge_PNG("D:/tmp/测试图片/");将多个PDF合并成一个PDF文件PDFUtils.merge_PDF("D:/tmp/测试图片/");取出指定PDF的起始和结束页码作为新的pdfPDFUtils.getPartPDF("D:/tmp/1.pdf",3,5);引入依赖org.apache.pdfbo

Python 训练集、测试集以及验证集切分方法:sklearn及手动切分

目录方法一方法二需求目的:针对模型训练输入,按照6:2:2的比例进行训练集、测试集和验证集的划分。当前数据量约10万条。如果针对的是记录条数达上百万的数据集,可按照98:1:1的比例进行切分。方法一:切分训练集和测试集,采用机器学习包sklearn中的train_test_split()函数方法二:切分训练集、测试集以及验证集,针对dataframe手动切分方法一采用Sklearn包中的sklearn.model_selection.train_test_split()函数,该函数功能是将原始数据按照比例切分为训练集和测试集。函数形式:sklearn.model_selection.train

【C++杂货铺】再谈哈希算法:位图 | 布隆过滤器 | 哈希切分

文章目录一、位图1.1一道面试题1.2位图的概念1.3位图的模拟实现1.4位图的应用1.4.1给定100亿个整数,设计算法找到只出现一次的整数1.4.2给两个文件,分别有100亿个整数,我们只有1G内存,如何找到两个文件交集?1.4.31个文件有100亿个int,1G内存,设计算法找到出现次数不超过2次的所有整数二、布隆过滤器2.1布隆过滤器的提出2.2布隆过滤器的概念2.3布隆过滤器的插入2.4布隆过滤器的查找2.5布隆过滤器的删除2.6布隆过滤器的优点2.7布隆过滤器的缺陷2.8布隆过滤器的实际应用场景三、哈希切分四、结语一、位图1.1一道面试题给40亿个不重复的无符号整数,没排过序。给一

如何使用 ffmpeg 对视频进行切分、合并

1.按照视频时间点进行截取,起止点:00:00:06~00:20:36ffmpeg-ss00:00:06-to00:20:36-accurate_seek-i"input.mp4"-avoid_negative_ts1-ccopy"ouput.mp4"-y2. 分离视频和音频ffmpeg-i"input.mp4"-vcodeccopy-an"out-vod.mp4"ffmpeg-i"input.mp4"-acodeccopy-vn"out-sound.m4a" 3.去除水印(指定区域模糊化,以(x,y)为左上角,长宽为w、h的矩形区域)ffmpeg-y-i"input.mp4"-vf"delo

ElasticSearch - ES集成ik分词器

一.下载ik分词器安装包并集成到ES1.下载地址:https://pan.baidu.com/s/1mJAEkc7F7voniw3BaIvlew2.将ik分词包集成到ES将下载成功后的压缩包解压到ES安装目录下的plugins内:以上就成功将KI分词器集成到ES当中,重启更新ES,就可以在ES中使用KI分词器了.二.Postman工具下演示使用ik分词器为了方便演示,我们直接打开Postman工具,连接到ES,在Postman工具下演示使用ik分词器:ik提供了两个分词算法ik_smart和ik_max_word其中ik_smart为最少切分,ik_max_word为最细粒度划分ik_smar

正则表达式系列|(以xx开头xx结尾提取、切分、替换)

正则表达式系列|(以xx开头xx结尾提取、切分、替换)文章目录正则表达式系列|(以xx开头xx结尾提取、切分、替换)@[TOC]前言一、以xx开头xx结尾进行数据处理?1.以xx开头xx结尾对文本拆分2.以xx开头xx结尾提取内容3.以xx开头xx结尾提取中间内容4.以xx开头xx结内容替换5.以xx开头xx结内容替换,并且标记序号总结章节第一章链接:正则表达式系列|(以xx开头xx结尾提取切分)前言正则表达式是对字符串操作的一种逻辑公式;作用:检索、替换那些符合某个模式(规则)的文本,可以通过一些设定的规则来匹配一些字符串,是一个强大的字符串匹配工具。一、以xx开头xx结尾进行数据处理?1.

LLM-分布式训练工具(一):DeepSpeed【微软】【大模型分布式训练工具,实现ZeRO并行训练算法】【zero3配置将模型参数切分后分配到不同的显卡中,突破单张显卡容量不足以加载模型参数的限制】

DeepSpeed是微软推出的大规模模型分布式训练的工具,主要实现了ZeRO并行训练算法。原始文档链接:DeepSpeed一、DeepSpeed目前支持的功能Optimizerstatepartitioning(ZeROstage1)Gradientpartitioning(ZeROstage2)Parameterpartitioning(ZeROstage3)CustommixedprecisiontraininghandlingArangeoffastCUDA-extension-basedoptimizersZeRO-OffloadtoCPUandNVMe二、DeepSpeed的使用2.

【C++】哈希的应用:位图、哈希切分与布隆过滤器

目录一、位图1、位图的概念2、大厂面试题2.1位图应用(腾讯)2.2位图应用3、位图的优缺点二、哈希切分三、布隆过滤器1、布隆过滤器的概念2、布隆过滤器的应用场景3、布隆过滤器的删除4、布隆过滤器的优缺点5、布隆过滤器面试题6、布隆过滤器的实现一、位图1、位图的概念        所谓位图,就是用每一位来存放某种状态,适用于海量数据,数据无重复的场景。通常是用来标记某个数据在或不在,它解决不了哪个数据出现次数最多的问题。2、大厂面试题2.1位图应用(腾讯)给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中?        开一个位图,使用哈希的直接