草庐IT

python - 通过语法检查(Python)从一组可能性中选择最流畅的文本

一些背景我是佛罗里达州新学院的文学系学生,目前正在从事一个过于雄心勃勃的创意项目。该项目面向诗歌的算法生成.它是用Python编写的。我的Python知识和自然语言处理知识仅来自通过互联网自学。我已经使用这些东西大约一年了,所以我并不无助,但在不同的时候我在这个项目中前进时遇到了麻烦。目前,我正在进入开发的最后阶段,并遇到了一些障碍。我需要实现某种形式的语法规范化,以便输出不会以未共轭/屈折的穴居人话的形式出现。大约一个月前,SOgavemesomeadviceonhowImightsolvethisissue上的一些友好人士通过使用ngram语言建模器,基本上-但我正在寻找其他解决方

python - 通过语法检查(Python)从一组可能性中选择最流畅的文本

一些背景我是佛罗里达州新学院的文学系学生,目前正在从事一个过于雄心勃勃的创意项目。该项目面向诗歌的算法生成.它是用Python编写的。我的Python知识和自然语言处理知识仅来自通过互联网自学。我已经使用这些东西大约一年了,所以我并不无助,但在不同的时候我在这个项目中前进时遇到了麻烦。目前,我正在进入开发的最后阶段,并遇到了一些障碍。我需要实现某种形式的语法规范化,以便输出不会以未共轭/屈折的穴居人话的形式出现。大约一个月前,SOgavemesomeadviceonhowImightsolvethisissue上的一些友好人士通过使用ngram语言建模器,基本上-但我正在寻找其他解决方

python - 大型数据集的 TFIDF

我有一个包含大约800万篇新闻文章的语料库,我需要将它们的TFIDF表示为稀疏矩阵。对于相对较少数量的样本,我已经能够使用scikit-learn做到这一点,但我相信它不能用于如此庞大的数据集,因为它首先将输入矩阵加载到内存中,这是一个昂贵的过程。有谁知道,为大型数据集提取TFIDF向量的最佳方法是什么? 最佳答案 Gensim有一个高效的tf-idfmodel并且不需要一次将所有内容都保存在内存中。您的语料库只需要是一个可迭代的,因此它不需要一次将整个语料库保存在内存中。make_wikiscript根据评论,在笔记本电脑上运行了

python - 大型数据集的 TFIDF

我有一个包含大约800万篇新闻文章的语料库,我需要将它们的TFIDF表示为稀疏矩阵。对于相对较少数量的样本,我已经能够使用scikit-learn做到这一点,但我相信它不能用于如此庞大的数据集,因为它首先将输入矩阵加载到内存中,这是一个昂贵的过程。有谁知道,为大型数据集提取TFIDF向量的最佳方法是什么? 最佳答案 Gensim有一个高效的tf-idfmodel并且不需要一次将所有内容都保存在内存中。您的语料库只需要是一个可迭代的,因此它不需要一次将整个语料库保存在内存中。make_wikiscript根据评论,在笔记本电脑上运行了

【自然语言处理(NLP)】基于ERNIE语言模型的文本语义匹配

【自然语言处理(NLP)】基于ERNIE语言模型的文本语义匹配作者简介:在校大学生一枚,华为云享专家,阿里云专家博主,腾云先锋(TDP)成员,云曦智划项目总负责人,全国高等学校计算机教学与产业实践资源建设专家委员会(TIPCC)志愿者,以及编程爱好者,期待和大家一起学习,一起进步~.博客主页:ぃ灵彧が的学习日志.本文专栏:人工智能.专栏寄语:若你决定灿烂,山无遮,海无拦.文章目录【自然语言处理(NLP࿰

python - 有效计算python中的词频

我想计算文本文件中所有单词的频率。>>>countInFile('test.txt')如果目标文本文件是这样的,应该返回{'aaa':1,'bbb':2,'ccc':1}:#test.txtaaabbbcccbbb我在someposts之后用纯python实现了它.但是,我发现纯python方式由于文件大小(>1GB)而不足。我认为借用sklearn的力量是一个候选。如果你让CountVectorizer计算每一行的频率,我猜你会通过对每一列求和来获得词频。但是,这听起来有点间接。用python计算文件中单词的最有效和最直接的方法是什么?更新我的(非常慢的)代码在这里:fromcoll

python - 有效计算python中的词频

我想计算文本文件中所有单词的频率。>>>countInFile('test.txt')如果目标文本文件是这样的,应该返回{'aaa':1,'bbb':2,'ccc':1}:#test.txtaaabbbcccbbb我在someposts之后用纯python实现了它.但是,我发现纯python方式由于文件大小(>1GB)而不足。我认为借用sklearn的力量是一个候选。如果你让CountVectorizer计算每一行的频率,我猜你会通过对每一列求和来获得词频。但是,这听起来有点间接。用python计算文件中单词的最有效和最直接的方法是什么?更新我的(非常慢的)代码在这里:fromcoll

python - 将文档分类

我在Postgres数据库中存储了大约300k文档,这些文档带​​有主题类别(总共大约150个类别)。我还有另外150k个文档还没有类别。我正在尝试找到以编程方式对它们进行分类的最佳方法。我一直在探索NLTK及其朴素贝叶斯分类器。似乎是一个很好的起点(如果您能为这项任务提出更好的分类算法,我会全力以赴)。我的问题是我没有足够的RAM来一次在所有150个类别/300k文档上训练NaiveBayesClassifier(5个类别的训练使用8GB)。此外,随着我​​对更多类别进行训练,分类器的准确率似乎会下降(2个类别的准确率为90%,5个类别为81%,10个类别为61%)。我是否应该一次只

python - 将文档分类

我在Postgres数据库中存储了大约300k文档,这些文档带​​有主题类别(总共大约150个类别)。我还有另外150k个文档还没有类别。我正在尝试找到以编程方式对它们进行分类的最佳方法。我一直在探索NLTK及其朴素贝叶斯分类器。似乎是一个很好的起点(如果您能为这项任务提出更好的分类算法,我会全力以赴)。我的问题是我没有足够的RAM来一次在所有150个类别/300k文档上训练NaiveBayesClassifier(5个类别的训练使用8GB)。此外,随着我​​对更多类别进行训练,分类器的准确率似乎会下降(2个类别的准确率为90%,5个类别为81%,10个类别为61%)。我是否应该一次只

python - 什么是好的 Python 亵渎过滤器库?

已结束。此问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提出有关书籍、工具、软件库等方面的建议的问题。您可以编辑问题,以便用事实和引用来回答它。关闭7年前。Improvethisquestion喜欢https://stackoverflow.com/questions/1521646/best-profanity-filter,但对于Python—我正在寻找可以在本地运行和控制自己的库,而不是Web服务。(虽然很高兴听到您对脏话过滤原则的基本反对意见,但我并不是专门在这里寻找它们。我知道脏话过滤无法识别出所有伤害性的话。我知道发誓,在宏伟的计划,