草庐IT

中文名

全部标签

中文分词入门:使用IK分词器进行文本分词(附Java代码示例)

1.介绍中文分词是将连续的中文文本切分成一个个独立的词语的过程,是中文文本处理的基础。IK分词器是一个高效准确的中文分词工具,采用了"正向最大匹配"算法,并提供了丰富的功能和可定制选项。2.IK分词器的特点细粒度和颗粒度的分词模式选择。可自定义词典,提高分词准确性。支持中文人名、地名等专有名词的识别。适用于中文搜索、信息检索、文本挖掘等应用领域。3.引入IK分词器的依赖IK分词器的实现是基于Java语言的,所以你需要下载IK分词器的jar包,并将其添加到你的Java项目的构建路径中。你可以从IK分词器的官方网站或GitHub仓库上获取最新的jar包。dependency>groupId>org

自学Python爬虫:将中文字符转化为URL编码

我们在百度中搜索汉字的时候,会发现显示在地址栏里的并不是汉字。这个就是URL编码,在PYTHON中可以使用quote()方法将内容转化为URL编码的格式。URL中带有中文参数时,有时可能会导致乱码的问题,此时用这个方法可以将中文字符转化为URL编下面直接上代码:fromurllib.parseimportquotekeyword='自学'url='https://www.baidu.com/s?wd='+quote(keyword)print(url)执行结果如下:https://www.baidu.com/s?wd=%E8%87%AA%E5%AD%A6我们可以直接把上面的结果复制到浏览器地址

记录--解决扫码枪因输入法中文导致的问题

这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助问题最近公司项目上遇到了扫码枪因搜狗/微软/百度/QQ等输入法在中文状态下,使用扫码枪扫码会丢失字符的问题思考这种情况是由于扫码枪的硬件设备,在输入的时候,是模拟用户键盘的按键来实现的字符输入的,所以会触发输入法的中文模式,并且也会触发输入法的自动联想。那我们可以针对这个来想解决方案。方案一首先想到的第一种方案是,监听keydown的键盘事件,创建一个字符串数组,将每一个输入的字符进行比对,然后拼接字符串,并回填到输入框中,下面是代码:functiononKeydownEvent(e){this.code=this.code||''c

【U3D引擎】没有切换中文选项&切换中文模式?

U3D没有切换中文选项&切换中文模式?第一步,查看是否有勾选简体中文模块第二步,拉到底部,勾选简体中文,点击继续第三步,勾选已阅读同意后点击安装第四步,等待下载安装完成过程中会自动安装VS软件如有下载失败可重新下载注:如果重复提示错误也没有没有关系,直接略过就好,第五步,随便打开一个项目,点击

php - mysql 数据库中的 php 中不显示中文字符

我正在从事一个使用多语言内容的项目http://school.rssas.org问题:数据库中没有显示汉字实际上它在具有相同数据库文件的本地主机上工作。当我将其上传到服务器包机时不支持但同时在本地运行良好,我已经尝试了与数据库相关的所有解决方案。http://school.rssas.org 最佳答案 试试这个header('Content-Type:text/html;charset=utf-8');另外有时需要解释的是,用户在连接到数据库时正在发送/期望UTF-8编码的数据,因此MySQL认为它应该处理latin1编码的数据并相

ElasticSearch中文分词和模糊查询

前言    ElasticSearch是一个一个分布式的实时文档存储,每一个字段都可以被索引与搜索,并且能支持PB级别的结构化或者非结构化数据。早期我们应用的全局搜索是简单的SQL模糊查询,为了分担数据库压力所以用了ES,选择他的原因除了以上几点外,还有其提供的API方式简单,于任何对接的编程语言都适用。以下将以PHP的业务场景完善搜索功能。环境ThinkPHP5.1ElasticSearch7.8PHP7.3功能迭代简介    最开始的ES取代方法解决了搜索速度问题,后来新增的ik分词器,解决了搜索词条单一问题。单也正是中文分词原因,对每句话都是拆解成指定粒度的词。当遇到单词时,一般只会对一

因为电脑用户名是中文造成无法安装Latex安装方案及每次电脑开机造成电脑桌面格式化

安装Latex由于C/用户/(管理者)是中文,造成无法安装。以联想小新为例(可以询问相关品牌电脑的客服)开启Administartor账户权限并且登入,(1)在搜索框中输入CMD,右键以管理员方式运行;(2)出现命令提示符窗口;(3)运行命令netuseradministrator/active:yes点击"确定;(4)关闭窗口,可看到已有administrator账户,需要重新注销才可切换成;(5)点击注销,点击Administrator;(6)第一次登录时会出现欢迎加载数据的过程,大约2-3分钟;(7)可看到当前已是Administrator账户登录了;(8)关闭的话可也使用命令完成(安装

Ubuntu 23.4安装中文输入法

采用GooglePinyin首先安装fcitxsudoaptinstallfcitx设置fcitx为输入法系统:然后Terminal输入:sudoapt-getinstalllanguage-pack-zh-hanssudoapt-getinstallfcitx-googlepinyin最后登出或重启系统后即可使用:

Unity TextMeshPro使用中文字体

TextMeshPro  TextMeshPro是Unity新一代字体,是Unity的最终文本解决方案。它是UnityUIText和旧版TextMesh的完美替代方案。功能强大、易于使用、性能高效。目前TextMeshPro对中文的支持也还可以,不过默认不能用,需要自己成生成。  本文就介绍TextMeshPro中文字体文件的生成方法,并且分析有可能出现中文乱码的原因。中文字体生成方法  首先准备一个原生的中文字体文件(.ttf、.ttc)等,在Windows10操作系统下的C:\Windows\Fonts目录下有很多Windows自带的字体文件可以使用。找到一个带有中文的字体,直接Ctrl+

【个人笔记本】本地化部署详细流程 LLaMA中文模型:Chinese-LLaMA-Alpaca-2

不推荐小白,环境配置比较复杂全部流程下载原始模型:Chinese-LLaMA-Alpaca-2linux部署llamacpp环境使用llamacpp将Chinese-LLaMA-Alpaca-2模型转换为gguf模型windows部署TextgenerationwebUI环境使用TextgenerationwebUI加载模型并进行对话准备工作笔记本环境:操作系统:win11CPU:AMDR7535HSGPU:笔记本4060显卡CUDA版本:11.8VM虚拟机:Ubuntu16下载模型和部署环境全程需要挂梯子下载原始模型原项目链接:https://github.com/ymcui/Chinese