中文名_草庐IT

python - 使用正则表达式匹配 python 中文件的开头和结尾

我很难在python中找到文件开头和结尾的正则表达式。我将如何实现这一点？最佳答案将整个文件读入一个字符串，然后\A只匹配字符串的开头，\Z只匹配字符串的结尾。对于re.MULTILINE，'^'匹配换行符之后的字符串开头and，'$'匹配换行符之前的字符串结尾and.请参阅resyntax的Python文档.importredata='''sentenceone.sentencetwo.abadsentencesentencethree.sentencefour.'''#findlinesendinginaperiodprin

训练一个中文gpt2模型

前言这是我的github上的一个介绍，关于如何训练中文版本的gpt2的。链接为:https://github.com/yuanzhoulvpi2017/zero_nlp介绍本文，将介绍如何使用中文语料，训练一个gpt2可以使用你自己的数据训练，用来：写新闻、写古诗、写对联等我这里也训练了一个中文gpt2模型，使用了612万个样本，每个样本有512个tokens，总共相当于大约31亿个tokens⚠️安装包需要准备好环境，也就是安装需要的包pipinstall-rrequirements.txt像是pytorch这种基础的包肯定也是要安装的，就不提了。数据数据来源获得数据:数据链接，关注公众号【

〔012〕Stable Diffusion 之中文提示词自动翻译插件篇

✨目录🎈翻译插件🎈下载谷歌翻译🎈谷歌翻译使用方法🎈谷歌翻译使用效果🎈翻译插件在插件列表中搜索PromptTranslator可以看到有2个插件选项：一个是基于谷歌翻译〔推荐〕、一个基于百度和deepl翻译推荐使用谷歌翻译，因为是离线翻译，所以使用时不用在乎是否科学上网，使用时是在后台将你的提示词进行翻译而百度翻译是你输入中文提示词后，将你的中文直接在前端给翻译好，再绘画，并且百度翻译对于新版本的stablediffusion适配性不是很好而其中的deepl翻译，更是跳转到翻译网站，这跟本机安装一个翻译软件有什么区别？

【AI实战】开源中文 llama2 来了，30 分钟搭建 130 亿参数大模型 Llama2-Chinese-13b-Chat

【AI实战】开源中文llama2来了，30分钟搭建130亿参数大模型Llama2-Chinese-13b-Chat简介环境配置环境搭建依赖安装代码及模型权重拉取拉取Llama2-Chinese拉取Llama2-Chinese-13b-Chat模型权重及代码终端测试页面测试安装gradio加载模型并启动服务国内Llama2最新下载地址参考简介Llama22023年7月19日：Meta发布开源可商用模型Llama2。Llama2是一个预训练和微调的生成文本模型的集合，其规模从70亿到700亿个参数不等。LLaMA2的详细介绍可以参考这篇文章：【大模型】更强的LLaMA2来了，开源可商用、与Chat

python - PyGame 中的中文 unicode 字体

如何在PyGame中显示汉字？什么是用于此目的的好的免费/自由字体？最佳答案 pygame使用SDL_ttf进行渲染，因此随着渲染的进行，您应该处于良好的状态。unifont.org似乎有一些关于一系列脚本的开源字体的广泛资源。我抓取了Cyberbitpan-unicode字体并提取了包含的ttf。以下“在我的机器上工作”是WindowsVistaHomeBasic和Python2.6:#-*-coding:utf-8-*-importpygame,sysunistr=u"黒澤明"pygame.font.init()srf=p

在树莓派中跑迷你Llama2中文模型

OpenAI的Karpathy利用周末搞了一个迷你Llama2项目llama2.c用500行C语言实现无任何依赖项的推理程序，此项目在github发布以来衍生出了基于各种语言的迷你Llama推理实现llama2.go、llama2.java、llama2.py等等；但该项目原本的模型并不支持中文，最近正好看到一个基于llama2的中文训练模型；想着把它跑在树莓派上速度会怎样；使用Go实现进行模型推理，该在树莓派中的Llama2迷你中文模型，模型大小为15M使用的数据集为TinyStories英文翻译后的数据但仅翻译了TinyStories的部分数据目前为1M，中文词表使用UTF-8

Python:有什么方法可以在多语言(例如中文和英文)字符串上执行此 "hybrid"split()？

我有多种语言的字符串，包括使用空格作为单词分隔符的语言(英语、法语等)和不使用空格的语言(中文、日语、韩语)。给定这样一个字符串，我想用空格作为分隔符将英语/法语/等部分分隔成单词，并将中文/日语/韩语部分分隔成单个字符。我想将所有这些分离的组件放入一个列表中。一些例子可能会清楚地说明这一点:案例1:仅限英文的字符串。这个案例很简单:>>>"IlovePython".split()['I','love','Python']情况2:中文字符串:>>>list(u"我爱蟒蛇")[u'\u6211',u'\u7231',u'\u87d2',u'\u86c7']在这种情况下，我可以将字符串转换

【类ChatGPT】本地CPU部署中文羊驼大模型LLaMA和Alpaca

昨天在github上看到一个在本地部署中文大模型的项目，和大家分享一下。先把地址po出来。项目名称：中文LLaMA&Alpaca大语言模型+本地部署(ChineseLLaMA&AlpacaLLMs)项目地址：https://github.com/ymcui/Chinese-LLaMA-Alpaca以下是原github中给出的体验GIF，可以看到这个模型还是具备一定的指令理解和上下文对话能力的。由于模型使用的是LoRA（一种高效模型训练方法），所以整个模型的参数量是比较小的（压缩包大概不到800M），但是需要和原版Facebook的权重进行结合才能使用。其实Facebook开源了，但又没完全开源

python - 以编程方式更改PDF中文本的字体颜色

我根本不熟悉PDF规范。我想知道是否可以直接操作PDF文件，以便我认为重要的某些文本block以我选择的颜色突出显示。选择的语言是python。最佳答案这是可能的，但不一定容易，因为PDF格式非常丰富。您可以找到详细描述它的文档here.它给出的关于PDF如何显示文本的第一个基本示例是:BT/F1312Tf288720Td(ABC)TjETBT和ET是开始和结束文本对象的命令；tf是使用外部字体资源F13(恰好是Helvetica)的命令，大小为12；td是将光标定位在给定坐标的命令；Tj是为前一个字符串写入字形的命令。这种风格

开源中文分词Ansj的简单使用

ANSJ是由孙健（ansjsun）开源的一个中文分词器，为ICTLAS的Java版本，也采用了Bigram+HMM分词模型：在Bigram分词的基础上，识别未登录词，以提高分词准确度。虽然基本分词原理与ICTLAS的一样，但是Ansj做了一些工程上的优化，比如：用DAT高效地实现检索词典、邻接表实现分词DAG、支持自定义词典与自定义消歧义规则等。1.项目地址项目的github地址：https://github.com/NLPchina/ansj_seg项目的文档地址：http://nlpchina.github.io/ansj_seg/2.导入2.1依赖Ansj最新依赖包是5.1.6版本的，2