草庐IT

收藏丨20个中文语料数据集,含数学考试、公务员考题、医患对话等

#要想训练出具有中文语境特色的大语言模型,中文语料数据必不可少,今天给大家分享20个中文语料数据集,欢迎转发、分享,催更下一期No.1Math33K(Math33KforMathWordProblemSolving)●发布方:腾讯人工智能实验室●发布时间:2017●简介:Math23K是为解决数学单词问题而创建的数据集,包含从互联网上爬取的23,162个中文问题。●下载地址:https://opendatalab.org.cn/Math23K●论文地址:https://aclanthology.org/D17-1088.pdfNo.2Ape210K●发布方:猿辅导AILab,西北大学●发布时间

python - 使用 NLTK 创建新语料库

我认为我的标题的答案通常是去阅读文档,但我浏览了NLTKbook但它没有给出答案。我是Python的新手。我有一堆.txt文件,我希望能够使用NLTK为语料库nltk_data提供的语料库函数。我已经尝试过PlaintextCorpusReader但我无法获得更多:>>>importnltk>>>fromnltk.corpusimportPlaintextCorpusReader>>>corpus_root='./'>>>newcorpus=PlaintextCorpusReader(corpus_root,'.*')>>>newcorpus.words()如何使用punkt分割new

python - NLTK - 如何找出从 python 中安装的语料库?

我正在尝试加载一些我用NLTK安装程序安装的语料库,但我得到了:>>>fromnltk.corpusimportmachadoTraceback(mostrecentcalllast):File"",line1,inImportError:cannotimportnamemachado但在下载管理器(nltk.download())中,machado包被标记为已安装,我有一个nltk_data/corpus/machado文件夹。我如何从python解释器内部看到安装的语料库是什么?另外,我应该安装什么包来使用这个操作指南?http://nltk.googlecode.com/svn/

python - 未找到资源语料库/wordnet(运行 quepy dbpedia 示例应用程序)

我已经搜索了网络(包括6个链接,这些链接显示了与Heroku、Anaconda等类似的问题,但有共同的根本原因——未找到资源语料库/wordnet)并执行了我所能做的一切,包括但不限于——将下载目录(并随后通过以下3种方法设置nltk_data路径)更改为/usr/lib/nltk_data、/home/ubuntu/nltk_data和/home/ubuntu/quepy/nltk_data3次。通过以下方式更改了路径:(i)在所有三个路径所需的quepy应用程序中更改settings.py中的NLTK_DATA_PATH(ii)对所有三个路径使用nltk.data.path.app

python - 在 NLTK 和 Python 中创建自定义分类语料库

我遇到了一些与正则表达式和Python中的CategorizedPlaintextCorpusReader有关的问题。我想创建一个自定义分类语料库并在其上训练一个朴素贝叶斯分类器。我的问题如下:我想要两个类别,“pos”和“neg”。正文件都在一个目录中,main_dir/pos/*.txt,负文件在一个单独的目录中,main_dir/neg/*.txt。如何使用CategorizedPlaintextCorpusReader加载和标记pos目录中的所有正文件,并对负文件执行相同的操作?注意:该设置与Movie_reviews语料库(~nltk_data\corpora\movie_r

python - NLTK:语料库级 bleu 与句子级 BLEU 分数

我已经在python中导入了nltk来计算Ubuntu上的BLEU分数。我了解句子级BLEU分数的工作原理,但我不了解语料库级BLEU分数的工作原理。下面是我的语料库级BLEU分数代码:importnltkhypothesis=['This','is','cat']reference=['This','is','a','cat']BLEUscore=nltk.translate.bleu_score.corpus_bleu([reference],[hypothesis],weights=[1])print(BLEUscore)出于某种原因,上述代码的bleu分数为0。我期望语料库级别

python - 如何使用 WordNet 查找英语单词的频率计数?

有没有一种方法可以使用WordNet或使用Python的NLTK查找英语单词的使用频率?注意:我不想要给定输入文件中某个单词的频率计数。我想根据今天的使用情况大致了解某个词的出现频率。 最佳答案 在WordNet中,每个Lemma都有一个由方法返回的频率计数lemma.count(),存储在文件nltk_data/corpora/wordnet/cntlist.rev中。代码示例:fromnltk.corpusimportwordnetsyns=wordnet.synsets('stack')forsinsyns:forlins.l

python - NLTK 使用语料库标记西类牙语单词

我正在尝试学习如何使用NLTK标记西类牙语单词。来自nltkbook,使用他们的示例很容易标记英文单词。因为我是nltk和所有语言处理的新手,所以我对如何进行感到很困惑。我已经下载了cess_esp语料库。有没有办法在nltk.pos_tag中指定语料库。我查看了pos_tag文档,但没有看到任何建议我可以。我觉得我缺少一些关键概念。我是否必须针对cess_esp语料库手动标记文本中的单词?(手动我的意思是标记我的句子并再次运行语料库)或者我完全偏离了目标。谢谢 最佳答案 首先,您需要从语料库中读取带标签的句子。NLTK提供了一个很

python - NLTK 使用语料库标记西类牙语单词

我正在尝试学习如何使用NLTK标记西类牙语单词。来自nltkbook,使用他们的示例很容易标记英文单词。因为我是nltk和所有语言处理的新手,所以我对如何进行感到很困惑。我已经下载了cess_esp语料库。有没有办法在nltk.pos_tag中指定语料库。我查看了pos_tag文档,但没有看到任何建议我可以。我觉得我缺少一些关键概念。我是否必须针对cess_esp语料库手动标记文本中的单词?(手动我的意思是标记我的句子并再次运行语料库)或者我完全偏离了目标。谢谢 最佳答案 首先,您需要从语料库中读取带标签的句子。NLTK提供了一个很

SnowNLP使用自定义语料进行模型训练(情感分析)

SnowNLPSnowNLP是一个功能强大的中文文本处理库,它囊括了中文分词、词性标注、情感分析、文本分类、关键字/摘要提取、TF/IDF、文本相似度等诸多功能,像隐马尔科夫模型、朴素贝叶斯、TextRank等算法均在这个库中有对应的应用。如果大家仔细观察过博主的博客,就会发现博主使用了摘要提取这一功能来增强博客的sEO,即通过自然语言处理(NLP)技术,提取每一篇文章中的摘要信息。因为SnowNLP本身使用的语料是电商网站评论,所以,当我们面对不同的使用场景时,它自带的这个模型难免会出现"水土不服"”。因此,如果我们希望得到更接近实际的结果,最好的方案是使用自定义语料进行模型训练。值得庆幸的