nltk_草庐IT

python - 如何使用 NLTK 分词器去除标点符号？

我刚开始使用NLTK，我不太明白如何从文本中获取单词列表。如果我使用nltk.word_tokenize()，我会得到一个单词和标点符号列表。我只需要单词。我怎样才能摆脱标点符号？word_tokenize也不适用于多个句子:在最后一个单词中添加点。最佳答案查看nltk提供的其他标记化选项here.例如，您可以定义一个分词器，它挑选出字母数字字符序列作为token并丢弃其他所有内容:fromnltk.tokenizeimportRegexpTokenizertokenizer=RegexpTokenizer(r'\w+')tok

去除 python section 39 code nlp tokenize nltk

python - 如何使用 NLTK 分词器去除标点符号？

我刚开始使用NLTK，我不太明白如何从文本中获取单词列表。如果我使用nltk.word_tokenize()，我会得到一个单词和标点符号列表。我只需要单词。我怎样才能摆脱标点符号？word_tokenize也不适用于多个句子:在最后一个单词中添加点。最佳答案查看nltk提供的其他标记化选项here.例如，您可以定义一个分词器，它挑选出字母数字字符序列作为token并丢弃其他所有内容:fromnltk.tokenizeimportRegexpTokenizertokenizer=RegexpTokenizer(r'\w+')tok

去除 python section 39 code nlp tokenize nltk

java - NLTK 找不到 Java 可执行文件

我用的是NLTK的nltk.tag.stanford，需要调用java可执行文件。我将JAVAHOME设置为安装jdk的C:\ProgramFiles\Java\jdk1.6.0_25，但运行程序时出现错误"NLTKwasunabletofindthejavaexecutable!Usetheconfig_java()orsettheJAVAHOMEvariable"然后我花了3个小时调试它并尝试了config_java("C:/ProgramFiles/Java/jdk1.6.0_25/")config_java("C:/ProgramFiles/Java/jdk1.6.0_25/b

java NLTK section code python tags config

java - NLTK 找不到 Java 可执行文件

我用的是NLTK的nltk.tag.stanford，需要调用java可执行文件。我将JAVAHOME设置为安装jdk的C:\ProgramFiles\Java\jdk1.6.0_25，但运行程序时出现错误"NLTKwasunabletofindthejavaexecutable!Usetheconfig_java()orsettheJAVAHOMEvariable"然后我花了3个小时调试它并尝试了config_java("C:/ProgramFiles/Java/jdk1.6.0_25/")config_java("C:/ProgramFiles/Java/jdk1.6.0_25/b

java NLTK section code python tags config

python - Hadoop 和 NLTK : Fails with stopwords

我正在尝试在Hadoop上运行Python程序。该程序涉及到NLTK库。该程序还利用HadoopStreamingAPI，如所述here.映射器.py:#!/usr/bin/envpythonimportsysimportnltkfromnltk.corpusimportstopwords#printstopwords.words('english')forlineinsys.stdin:printline,reducer.py:#!/usr/bin/envpythonimportsysforlineinsys.stdin:printline,控制台命令:bin/hadoopjarco

stopwords python strong hadoop section mapreduce cluster-analysis

python - 为什么我不能导入 nltk？

在具有64位操作系统的Windows中，一旦我安装了nltk-2.0.4.win-amd64-py2.7.exe，来自http://www.lfd.uci.edu/~gohlke/pythonlibs/，对于我的64位python，我运行“importnltk”得到以下错误!Traceback(mostrecentcalllast):File"",line1,inimportnltkFile"C:\Python27\lib\site-packages\nltk\__init__.py",line131,infrominferenceimport*File"C:\Python27\lib

python nltk site-packages import windows 64-bit

python - NLTK 数据安装问题

我正在尝试在MacOSX10.9上安装NLTKData。需要设置的下载目录，在NLTK3.0文档中提到，集中安装是/usr/share/nltk_data。但是对于这条路，我得到了错误OSError:[Errno13]权限被拒绝:'/usr/share/nltk_data'我可以设置下载目录为/Users/ananya/nltk_data集中安装吗？我的机器上安装了Python2.7谢谢，阿那亚最佳答案你试过吗:$sudopython>>>importnltk>>>nltk.download()要检查下载是否有效，请尝试您下载的

python NLTK 39 nltk_data

python - 绘制词频和 NLTK

我有一个包含各种单词的文件，我想计算文档中每个单词的频率并绘制出来。但是，我的情节没有显示结果。x轴必须包含单词，y轴必须包含频率。我正在使用NLTK、NumPy和Matplotlib这是我的代码，也许我做错了什么defgraph():f=open("file.txt","r")inputfile=f.read()words=nltk.tokenize.word_tokenize(inputfile)count=set(words)dic=nltk.FreqDist(words)FreqDist(f).plot(50,cumulative=False)f.close()给定文件file

python NLTK code section 单词 matplotlib

Python NLTK WUP 相似度分数对于完全相同的词不统一

像下面这样的简单代码给出了两种情况下0.75的相似度分数。如您所见，这两个词完全相同。为了避免混淆，我还将一个词与其自身进行了比较。分数拒绝从0.75膨胀。这是怎么回事？fromnltk.corpusimportwordnetaswnactual=wn.synsets('orange')[0]predicted=wn.synsets('orange')[0]similarity=actual.wup_similarity(predicted)printsimilaritysimilarity=actual.wup_similarity(actual)printsimilarity

Python NLTK code depth nlp similarity

python - 使用 NLTK 比较术语/表达式的相似性？

我正在尝试比较语义相关(或不相关)的术语/表达——这些不是完整的句子，也不一定是单个单词；例如-“社交网络服务”和“社交网络”显然密切相关，但如何使用nltk对其进行量化？显然我遗漏了一些东西，甚至是代码:w1=wordnet.synsets('socialnetwork')返回一个空列表。关于如何解决这个问题有什么建议吗？最佳答案有一些语义相关性或相似性的度量，但据我所知，它们最好针对wordnet词典中的单个单词或单个表达式定义-而不是针对wordnet词汇条目的复合词。这是许多基于wordnet的相似性度量的一个很好的we

python NLTK section wordnet noreferrer