草庐IT

python - 如何在 Python 中查找字符串中的重音字符?

我有一个包含句子的文件,其中一些句子是西类牙语并且包含重音字母(例如é)或特殊字符(例如¿)。我必须能够在句子中搜索这些字符,以便确定句子是西类牙语还是英语。我已尽力完成此任务,但未能成功。以下是我尝试过的解决方案之一,但显然给出了错误的答案。sentence=¿Quétipoesel?#instrformat,receivedfromstandardopenfilemethodsentence=sentence.decode('latin-1')print'é'.decode('latin-1')insentence>>>False我也尝试过使用codecs.open(..,..,'

python - 在字符串中查找字符/单词的周围句子

我正在尝试使用python从包含给定子字符串的字符串中获取句子。我可以访问字符串(学术摘要)和带有开始和结束索引的亮点列表。例如:{abstract:"...longabstracthere..."highlights:[{concept:'aword',start:1,end:10}{concept:'cancer',start:123,end:135}]}我遍历每个突出显示,在摘要中找到它的起始索引(结束并不重要,因为我只需要在句子中找到一个位置),然后以某种方式需要识别索引出现在的句子.我能够使用nltk.tonenize.sent_tokenize将摘要标记化为句子,但这样做会

python - 从 Python 的 NLTK 中的自定义文本生成随机句子?

我在使用Python下的NLTK时遇到问题,特别是.generate()方法。generate(self,length=100)Printrandomtext,generatedusingatrigramlanguagemodel.Parameters:*length(int)-Thelengthoftexttogenerate(default=100)这是我正在尝试的简化版本。importnltkwords='Thequickbrownfoxjumpsoverthelazydog'tokens=nltk.word_tokenize(words)text=nltk.Text(token

python - 如何从 BIO 分块句子中提取分块? - Python

给一个输入句子,有BIOchunktags:[('What','B-NP'),('is','B-VP'),('the','B-NP'),('airspeed','I-NP'),('of','B-PP'),('an','B-NP'),('unladen','I-NP'),('swallow','I-NP'),('?','O')]我需要提取相关的短语,例如如果我想提取'NP',我需要提取包含B-NP和I-NP的元组片段。[输出]:[('What','0'),('theairspeed','2-3'),('anunladenswallow','5-6-7')](注意:提取元组中的数字代表to

python - 根据意思比较句子

Python提供了NLTK库,这是一个巨大的文本和语料库资源,以及大量的文本挖掘和处理方法。有什么方法可以根据句子传达的含义来比较句子以获得可能的匹配吗?即智能句子匹配器?例如,像这样的句子gigglingatbadjokes和Iliketolaugmyselfsillyatpoorjokes。两者表达相同的意思,但句子并不完全匹配(单词不同,LevensteinDistance会严重失败!)。现在假设我们有一个API,它公开了诸如foundhere之类的功能。.因此,基于此,我们有机制可以发现单词giggle和laugh在含义上确实匹配他们传达。Bad不会匹配到poor,所以我们可能

python - 给定一个单词列表和一个句子,找到整个句子或作​​为子字符串出现在句子中的所有单词

问题给定一个字符串列表,从列表中找到出现在给定文本中的字符串。示例list=['red','hello','howareyou','hey','deployed']text='hello,Thisissharedright?howareyoudoingtonight'result=['red','howareyou','hello']'red'因为它有'shared'有'red'作为子串这与thisquestion非常相似除了我们需要查找的词也可以是子串。列表非常大,并且随着用户的增加而增加,而不是整个长度几乎相同的文本。我正在考虑有一个解决方案,其中时间复杂度取决于文本的长度而不是单

python - 如何提供 tensorflow 模块,特别是通用句子编码器?

我花了几个小时尝试设置Tensorflow-hub模块“UniversalSentenceEncoder”的Tensorflow服务。这里有一个类似的问题:Howtomakethetensorflowhubembeddingsservableusingtensorflowserving?我一直在Windows机器上执行此操作。这是我用来构建模型的代码:importtensorflowastfimporttensorflow_hubashubMODEL_NAME='test'VERSION=1SERVE_PATH='./models/{}/{}'.format(MODEL_NAME,VE

java - 使用 NLTK 使用 MaltParser 解析多个句子

有很多与MaltParser和/或NLTK相关的问题:MaltParserthrowingclassnotfoundexceptionHowtousemaltparserinpythonnltkMaltParserNotWorkinginPythonNLTKNLTKMaltParserwon'tparseDependencyparserusingNLTKandMaltParserDependencyParsingusingMaltParserandNLTKParsingwithMaltParserengmaltParserawtextwithMaltParserinJava现在,NLT

python - NLTK:语料库级 bleu 与句子级 BLEU 分数

我已经在python中导入了nltk来计算Ubuntu上的BLEU分数。我了解句子级BLEU分数的工作原理,但我不了解语料库级BLEU分数的工作原理。下面是我的语料库级BLEU分数代码:importnltkhypothesis=['This','is','cat']reference=['This','is','a','cat']BLEUscore=nltk.translate.bleu_score.corpus_bleu([reference],[hypothesis],weights=[1])print(BLEUscore)出于某种原因,上述代码的bleu分数为0。我期望语料库级别

python - 使用keras的句子相似度

我正在尝试基于此workusingtheSTSdataset实现句子相似度架构.标签是从0到1的归一化相似性分数,因此假设它是一个回归模型。我的问题是,从第一个纪元开始,损失直接进入NaN。我做错了什么?我已经尝试更新到最新的keras和theano版本。我的模型的代码是:defcreate_lstm_nn(input_dim):seq=Sequential()`#embeddusingpretrained300dembeddingseq.add(Embedding(vocab_size,emb_dim,mask_zero=True,weights=[embedding_weights