草庐IT

python - 用于解析体育比赛数据的自然语言解析器

我正在尝试为足球比赛设计一个解析器。我在这里非常宽松地使用术语“自然语言”,所以请耐心等待,因为我对这个领域知之甚少。以下是我正在使用的一些示例(格式:TIME|DOWN&DIST|OFF_TEAM|DESCRIPTION):04:39|4thand20@NYJ46|Dal|MatMcBriarpuntsfor32yardstoNYJ14.JeremyKerley-noreturn.FUMBLE,recoveredbyNYJ.|04:31|1stand10@NYJ16|NYJ|ShonnGreenerushupthemiddlefor5yardstotheNYJ21.Tackledby

python - 印地语到英语音译

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭8年前。Improvethisquestion是否有用于将印地语音译为英语的python库?例如“खाया”应转换为“khaya”

python - 如何在 Python 中使用 WordNet 获取词域?

如何使用nltkPython模块和WordNet查找词域?假设我有像(交易、汇票、支票、存折)这样的词,所有这些词的域都是“BANK”。我们如何在Python中使用nltk和WordNet获得它?我正在尝试通过上位词和下位词的关系:例如:fromnltk.corpusimportwordnetaswnsports=wn.synset('sport.n.01')sports.hyponyms()[Synset('judo.n.01'),Synset('athletic_game.n.01'),Synset('spectator_sport.n.01'),Synset('contact_s

python - 如何使用 spaCy 创建新实体并仅从关键字列表中学习

我正在尝试使用spaCy使用物种名称列表创建新的实体分类“物种”,他可以找到示例here.我从thisspaCytutorial找到了训练新实体类型的教程(Github代码here)。但是,问题是,我不想为每个物种名称手动创建一个句子,因为这会非常耗时。我创建了以下训练数据,如下所示:TRAIN_DATA=[('Bombina',{'entities':[(0,6,'SPECIES')]}),('Dermaptera',{'entities':[(0,9,'SPECIES')]}),....]我创建训练集的方式是:不提供完整的句子和匹配实体的位置,我只提供每个物种的名称,开始和结束索引

python - 使用 nltk 从德语文本中提取单词

我正在尝试从德语文档中提取单词,当我使用nltk教程中描述的以下方法时,我无法获得具有语言特定特殊字符的单词。ptcr=nltk.corpus.PlaintextCorpusReader(Corpus,'.*');words=nltk.Text(ptcr.words(DocumentName))如何获取文档中的单词列表?德语短语VeränderungenübereinenWalzer的nltk.tokenize.WordPunctTokenizer()示例如下:In[231]:nltk.tokenize.WordPunctTokenizer().tokenize(u"Veränderu

python - 如何在 Python/Django 中针对一长串单词有效地过滤字符串?

Stackoverflow通过获取当前所问问题的标题并从中删除10,000个最常见的英语单词(根据Google的说法)来实现其“相关问题”功能。然后将剩余的词作为全文搜索提交以查找相关问题。我想在我的Django站点中做类似的事情。根据Python中的一长串单词过滤字符串(在本例中为问题标题)的最佳方法是什么?有什么库可以让我高效地做到这一点? 最佳答案 您可以使用Python中的集合和字符串功能非常简单地完成此操作并查看其执行情况(过早的优化是万恶之源!):common_words=frozenset(("if","but","a

python - NLTK 性能

好吧,我最近对自然语言处理很感兴趣:但是,到目前为止,我的大部分工作都使用C。我听说过NLTK,我不知道Python,但它似乎很容易学,而且它看起来像一门非常强大和有趣的语言。特别是,NLTK模块似乎非常非常适合我需要做的事情。但是,当使用samplecodeforNLTK时并将其粘贴到一个名为test.py的文件中,我注意到运行它需要非常非常长的时间!我在shell中这样调用它:timepython./test.py而在具有4GBRAM的2.4GHz机器上,它需要19.187秒!现在,也许这绝对是正常的,但我的印象是NTLK非常快;我可能弄错了,但有什么明显的地方我做错了吗?

python - Nltk 斯坦福 pos 标记器错误 : Java command failed

我正在尝试使用nltk.tag.stanfordmodule用于标记句子(首先像wiki的示例),但我不断收到以下错误:Traceback(mostrecentcalllast):File"test.py",line28,inprintst.tag(word_tokenize('Whatistheairspeedofanunladenswallow?'))File"/usr/local/lib/python2.7/dist-packages/nltk/tag/stanford.py",line59,intagreturnself.tag_sents([tokens])[0]File"/

【类ChatGPT】本地CPU部署中文羊驼大模型LLaMA和Alpaca

昨天在github上看到一个在本地部署中文大模型的项目,和大家分享一下。先把地址po出来。项目名称:中文LLaMA&Alpaca大语言模型+本地部署(ChineseLLaMA&AlpacaLLMs)项目地址:https://github.com/ymcui/Chinese-LLaMA-Alpaca以下是原github中给出的体验GIF,可以看到这个模型还是具备一定的指令理解和上下文对话能力的。由于模型使用的是LoRA(一种高效模型训练方法),所以整个模型的参数量是比较小的(压缩包大概不到800M),但是需要和原版Facebook的权重进行结合才能使用。其实Facebook开源了,但又没完全开源

python - 在 NLTK 和 Python 中创建自定义分类语料库

我遇到了一些与正则表达式和Python中的CategorizedPlaintextCorpusReader有关的问题。我想创建一个自定义分类语料库并在其上训练一个朴素贝叶斯分类器。我的问题如下:我想要两个类别,“pos”和“neg”。正文件都在一个目录中,main_dir/pos/*.txt,负文件在一个单独的目录中,main_dir/neg/*.txt。如何使用CategorizedPlaintextCorpusReader加载和标记pos目录中的所有正文件,并对负文件执行相同的操作?注意:该设置与Movie_reviews语料库(~nltk_data\corpora\movie_r