草庐IT

【Python】数据分析、爬取PDF文件使用Jieba词库进行分析计算银行数字化转型指数

一、需求相关研究表明,银行等企业的数字化转型相关特征信息更容易体现在具有总结和指导性质的年度报表中(吴非,2021)。因此,通过统计银行年报中涉及“数字化转型”的词频来刻画其转型程度,具有可行性和科学性。具体而言,本文借助Python爬虫功能对中国40家上市银行年度报表进行爬取,并采用Jieba分词模块对银行“数字化转型”相关的关键词进行分词与统计。使用Jieba的优势在于其能够精准地对中文文本进行识别与分词,同时支持用户自定义词典,可以有效提高分词的准确性。在词库方面,本文借鉴吴非(2021)的研究,将银行数字化转型细分为“底层技术”与“实践应用”两类,不仅包括了数字化转型的四种典型底层技术

Elasticsearch安装IK分词器、配置自定义分词词库

一、分词简介1、单字分词:2、二分法分词:3、词库分词:二、配置IK中文分词器三、配置自定义分词拓展词库一、分词简介在Elasticsearch中,假设搜索条件是“华为手机平板电脑”,要求是只要满足了其中任意一个词语组合的数据都要查询出来。借助Elasticseach的文本分析功能可以轻松将搜索条件进行分词处理,再结合倒排索引实现快速检索。Elasticseach提供了三种分词方法:单字分词,二分法分词,词库分词。1、单字分词:如:“华为手机平板电脑”效果:“华”、“为”、“手”、“机”、“平”、“板”、“电”、“脑”2、二分法分词:按两个字进行切分。如:“华为手机平板电脑”效果:“华为”、“

Elasticsearch安装IK分词器、配置自定义分词词库

一、分词简介1、单字分词:2、二分法分词:3、词库分词:二、配置IK中文分词器三、配置自定义分词拓展词库一、分词简介在Elasticsearch中,假设搜索条件是“华为手机平板电脑”,要求是只要满足了其中任意一个词语组合的数据都要查询出来。借助Elasticseach的文本分析功能可以轻松将搜索条件进行分词处理,再结合倒排索引实现快速检索。Elasticseach提供了三种分词方法:单字分词,二分法分词,词库分词。1、单字分词:如:“华为手机平板电脑”效果:“华”、“为”、“手”、“机”、“平”、“板”、“电”、“脑”2、二分法分词:按两个字进行切分。如:“华为手机平板电脑”效果:“华为”、“

输入法词库解析(七)微软用户自定义短语.dat

详细代码:https://github.com/cxcn/dtool前言微软拼音和微软五笔通用的用户自定义短语dat格式。解析前8个字节标识文件格式machxudp,微软五笔的lex格式是imscwubi。下面8个字节应该是版本号。接下来每4字节一组,分别表示偏移表开始、词条开始、文件总长、词条数、导出的时间戳。然后补0一直到偏移表开始。偏移表记录了每个词条从词条开始的偏移量,每4个字节一组。接下来就是词条本体部分:#占用字节数描述410001000标记a2该词条总字节长-词占用的字节长1在候选中的位置10x06或0x13,未知404从2010-01-01开始的时间戳a-16编码(utf-16

输入法词库解析(七)微软用户自定义短语.dat

详细代码:https://github.com/cxcn/dtool前言微软拼音和微软五笔通用的用户自定义短语dat格式。解析前8个字节标识文件格式machxudp,微软五笔的lex格式是imscwubi。下面8个字节应该是版本号。接下来每4字节一组,分别表示偏移表开始、词条开始、文件总长、词条数、导出的时间戳。然后补0一直到偏移表开始。偏移表记录了每个词条从词条开始的偏移量,每4个字节一组。接下来就是词条本体部分:#占用字节数描述410001000标记a2该词条总字节长-词占用的字节长1在候选中的位置10x06或0x13,未知404从2010-01-01开始的时间戳a-16编码(utf-16

Arch Linux配置gnome桌面

镜像下载、域名解析、时间同步请点击阿里云开源镜像站ArchLinux安装完gnome桌面后,一般还需要配置好软件仓库环境(如AUR助手工具PARU),并需要进行进一步个性化配置(主题、扩展等)。1.安装和使用PARU(AUR助手)AUR是基于ArchLinux的一个用户仓库。由于Arch自带的包管理器pacman并不能以类似官方仓库的方式访问AUR,而AUR中的包是以PKGBUILD的形式存在的,需要手动过程来构建。于是,能够自动完成AUR包构建的AUR助手就变得尤为重要,这其中,PARU就是受欢迎的AUR助手之一。1)安装PARU[hollowman@192~]$sudopacman-Syy

Arch Linux配置gnome桌面

镜像下载、域名解析、时间同步请点击阿里云开源镜像站ArchLinux安装完gnome桌面后,一般还需要配置好软件仓库环境(如AUR助手工具PARU),并需要进行进一步个性化配置(主题、扩展等)。1.安装和使用PARU(AUR助手)AUR是基于ArchLinux的一个用户仓库。由于Arch自带的包管理器pacman并不能以类似官方仓库的方式访问AUR,而AUR中的包是以PKGBUILD的形式存在的,需要手动过程来构建。于是,能够自动完成AUR包构建的AUR助手就变得尤为重要,这其中,PARU就是受欢迎的AUR助手之一。1)安装PARU[hollowman@192~]$sudopacman-Syy