草庐IT

stanford-nlp

全部标签

NLP大模型微调原理

1.背景LLM(LargeLanguageModel)大型语言模型,旨在理解和生成人类语言,需要在大量的文本数据上进行训练。一般基于Transformer结构,拥有Billion以上级别的参数量。比如GPT-3(175B),PaLM(560B)。NLP界发生三件大事:ChatGPT:2022年11月OpenAI发布的AI聊天机器人程序,基于GPT-3.5LLaMA:2023年2月Meta发布的预训练模型,重新定义了大模型的“大”Alpaca:2023年3月斯坦福发布的微调模型,证明InstructionFine-Tuning的可行性ChatGPT背后的技术:GPTmodels:基座模型(bas

nlp-parser:一个用于依存句法分析的小工具-conll格式-支持sql做更复杂的分析

#项目功能分析中文文本的依存关系,生成conll格式的中间文件,以及本地sqlite3数据库文件,方便统计各种词,词性之间的不同依存关系频次主要功能:-把中文文本解析为依存关系-包含分词,词性标注-结果存储为conllu文本和sqlite3:生成的sqlite文件方便用sql做各种统计分析-支持自定义正则对文本按行预处理:命中正则的字符串将会删除项目源码和编译包下载位置[github](https://github.com/chuangfengwang/nlp-parser)其实就是把hanlp封装了一下,以便于直接拿来用.#使用方法##生成依存关系数据-安装java环境(>=java8)-下

transformers包介绍——nlp界最顶级的包——可以不用 但不能不知道——python包推荐系列

背景1现在在AI行业,什么最火?计算机视觉还是自然语言处理?其实不得不说,现在nlp很火。还有人记得上个月很多科技爱好者都在玩的chatgpt么?那个就是nlp技术的一大应用。现在都在觉得AI赚钱,工资高,然后很多人都想做一些事情、很多企业都想做一些事情,和AI挂钩的。现在AI里面算是比较有活力的,就是nlp领域。背景2经常能看到一些读者在群里问:“现在nlp方面的包,应该用什么?”“现在想做一个文本分类的代码,而且我还要求是中文的,我应该怎么实现呢?”“现在想做中文的文本搜索,想做问答机器人,我怎么实现呢?”“现在想做一些更加高级的东西,比如文本纠错、文本摘要等,应该怎么实现呢?“”我想学习

基于NLP的软件安全研究(三)

文章目录jTrans:Jump-AwareTransformerforBinaryCodeSimilarityDetectionbackgroundProblemdefinitionoverviewPreprocessingModelingJumpInstructiondatasetevaluationcomparemodelPerformancejTrans:Jump-AwareTransformerforBinaryCodeSimilarityDetectioncore:将控制流信息嵌入到transformer的解决方案backgroundBinarycodesimilaritydetec

java - 如何使用斯坦福解析器将文本拆分为句子?

如何使用Stanfordparser将文本或段落拆分为句子?有没有什么方法可以提取句子,比如getSentencesFromString(),因为它是为Ruby提供的? 最佳答案 您可以检查DocumentPreprocessor类。下面是一个简短的片段。我认为可能还有其他方法可以做你想做的事。Stringparagraph="My1stsentence.“Doesitworkforquestions?”Mythirdsentence.";Readerreader=newStringReader(paragraph);Documen

java - 如何使用斯坦福解析器将文本拆分为句子?

如何使用Stanfordparser将文本或段落拆分为句子?有没有什么方法可以提取句子,比如getSentencesFromString(),因为它是为Ruby提供的? 最佳答案 您可以检查DocumentPreprocessor类。下面是一个简短的片段。我认为可能还有其他方法可以做你想做的事。Stringparagraph="My1stsentence.“Doesitworkforquestions?”Mythirdsentence.";Readerreader=newStringReader(paragraph);Documen

Elasticsearch - SQL客户端-DataGrip;自然语言处理 NLP (十四)

阅读前参考https://blog.csdn.net/MinggeQingchun/article/details/126856939一、SQL客户端-DataGrip官网地址:DataGrip:由JetBrains开发的数据库和SQL跨平台IDE下载地址:下载DataGrip:适用于数据库和SQL的跨平台IDE1、下载对应版本Elasticsearch驱动到本地maven仓库org.elasticsearch.pluginx-pack-sql-jdbc7.16.0博主本地Maven仓库路径如下2、新建驱动3、选择本地maven仓库下载的ES驱动4、新建数据源 配置连接参数(1)用户名和账号采

【NLP】NLP基础知识

目录自然语言处理主要内容自然语言的构成自然语言处理的步骤1:词法分析1分词:1.1分词PythonJieba库2实体识别3实体识别方法:序列标注4序列标注关键算法:5序列标注应用:5.1新词发现:5.2领域中文分词5.3命名实体识别5.4依存句法分析(帮助句法分析)自然语言处理的步骤2:句法分析1主题模型与特征提取1.0简单文本表示(one-hot和词袋模型)1.1TF-IDF1.2主题模型1.3LDA(潜在狄利克雷分配LatentDirichletAllocation)1.4词向量与分布式表示Word2Vec:1.5文档向量模型Doc2vec:2文本分类与相似度量自然语言处理的步骤3:语义分

【NLP开发】Python实现聊天机器人(微软小冰)

🍺NLP开发系列相关文章编写如下🍺:🎈【NLP开发】Python实现词云图🎈🎈【NLP开发】Python实现图片文字识别🎈🎈【NLP开发】Python实现中文、英文分词🎈🎈【NLP开发】Python实现聊天机器人(ELIZA))🎈🎈【NLP开发】Python实现聊天机器人(ALICE)🎈🎈【NLP开发】Python实现聊天机器人(ChatterBot)🎈🎈【NLP开发】Python实现聊天机器人(微软Azure)🎈🎈【NLP开发】Python实现聊天机器人(微软小冰)🎈🎈【NLP开发】Python实现聊天机器人(钉钉机器人)🎈🎈【NLP开发】Python实现聊天机器人(微信机器人)🎈文章目录1

Elasticsearch:NLP 和 Elastic:入门

自然语言处理(NaturalLanguageProcessing-NLP)是人工智能(AI)的一个分支,专注于尽可能接近人类解释的理解人类语言,将计算语言学与统计、机器学习和深度学习模型相结合。AI-ArtificialInteligence人工智能ML-MachineLearning机器学习DL-DeepLearning 深度学习NLP-NaturualLanguageProcessing自然语音处理NLP任务的一些示例命名实体识别(NamedEntityRecognition,NER)是一种信息抽取,将单词或短语识别为实体。我们可以使用Huggingface上的模型来进行测试。你可以进一步