对不起,如果我的问题听起来很愚蠢 :) 你能给我推荐任何伪代码或在 java 中实现 LSI 的好算法吗? 我不是数学专家。我试着阅读维基百科和其他网站上的一些文章 LSI(潜在语义索引)他们充满了数学。 我知道 LSI 充满了数学。但是如果我看到一些源代码或算法。我更懂事 容易地。这就是我在这里问的原因,因为这里有很多 GURU! 提前致谢
最佳答案
LSA 的想法基于一个假设:在同一文档中出现的两个词越多,它们就越相似。事实上,我们可以预期“编程”和“算法”这两个词在同一文档中的出现频率要远高于“编程”和“狗繁殖”。
同样适用于文档:两个文档的常用词/相似词越多,它们本身就越相似。因此,您可以通过单词的频率来表达文档的相似性,反之亦然。
知道了这一点,我们就可以构造一个共现矩阵,其中列名代表文档,行名代表单词,每个cells[i][j]代表频率文档 documents[j] 中的单词 words[i]。频率可以通过多种方式计算,IIRC,原始 LSA 使用 tf-idf指数。
有了这样的矩阵,你可以通过比较相应的列来找到两个文档的相似性。如何比较它们?同样,有几种方法。最流行的是余弦距离。你一定记得在学校数学中,矩阵可以被视为一堆 vector ,所以每一列只是某个多维空间中的一个 vector 。这就是为什么这个模型被称为“vector 空间模型”的原因。更多关于 VSM 和余弦距离的信息 here .
但是这样的矩阵有一个问题:它很大。非常非常大。使用它的计算成本太高,因此我们必须以某种方式减少。 LSA 使用 SVD保留最“重要” vector 的技术。还原矩阵准备好使用后。
所以,LSA 的算法看起来像这样:
如果您要自己编写 LSA 库,开始的好点是 Lucene搜索引擎,这将使第 1 步和第 2 步变得更加容易,以及一些具有 SVD 功能的高维矩阵的实现,如 Parallel Colt或 UJMP .
还要注意从 LSA 发展而来的其他技术,例如 Random Indexing . RI 使用相同的想法并显示大致相同的结果,但不使用全矩阵阶段并且是完全增量的,这使得它的计算效率更高。
关于java - 在潜在语义索引方面需要帮助,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2017732/
当我使用Bundler时,是否需要在我的Gemfile中将其列为依赖项?毕竟,我的代码中有些地方需要它。例如,当我进行Bundler设置时:require"bundler/setup" 最佳答案 没有。您可以尝试,但首先您必须用鞋带将自己抬离地面。 关于ruby-我需要将Bundler本身添加到Gemfile中吗?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/4758609/
我注意到像bundler这样的项目在每个specfile中执行requirespec_helper我还注意到rspec使用选项--require,它允许您在引导rspec时要求一个文件。您还可以将其添加到.rspec文件中,因此只要您运行不带参数的rspec就会添加它。使用上述方法有什么缺点可以解释为什么像bundler这样的项目选择在每个规范文件中都需要spec_helper吗? 最佳答案 我不在Bundler上工作,所以我不能直接谈论他们的做法。并非所有项目都checkin.rspec文件。原因是这个文件,通常按照当前的惯例,只
我实际上是在尝试使用RVM在我的OSX10.7.5上更新ruby,并在输入以下命令后:rvminstallruby我得到了以下回复:Searchingforbinaryrubies,thismighttakesometime.Checkingrequirementsforosx.Installingrequirementsforosx.Updatingsystem.......Errorrunning'requirements_osx_brew_update_systemruby-2.0.0-p247',pleaseread/Users/username/.rvm/log/138121
我真的很习惯使用Ruby编写以下代码:my_hash={}my_hash['test']=1Java中对应的数据结构是什么? 最佳答案 HashMapmap=newHashMap();map.put("test",1);我假设? 关于java-等价于Java中的RubyHash,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/22737685/
我正在阅读SandiMetz的POODR,并且遇到了一个我不太了解的编码原则。这是代码:classBicycleattr_reader:size,:chain,:tire_sizedefinitialize(args={})@size=args[:size]||1@chain=args[:chain]||2@tire_size=args[:tire_size]||3post_initialize(args)endendclassMountainBike此代码将为其各自的属性输出1,2,3,4,5。我不明白的是查找方法。当一辆山地自行车被实例化时,因为它没有自己的initialize方法
只是想确保我理解了事情。据我目前收集到的信息,Cucumber只是一个“包装器”,或者是一种通过将事物分类为功能和步骤来组织测试的好方法,其中实际的单元测试处于步骤阶段。它允许您根据事物的工作方式组织您的测试。对吗? 最佳答案 有点。它是一种组织测试的方式,但不仅如此。它的行为就像最初的Rails集成测试一样,但更易于使用。这里最大的好处是您的session在整个Scenario中保持透明。关于Cucumber的另一件事是您(应该)从使用您的代码的浏览器或客户端的角度进行测试。如果您愿意,您可以使用步骤来构建对象和设置状态,但通常您
我正在尝试使用boilerpipe来自JRuby。我看过guide从JRuby调用Java,并成功地将它与另一个Java包一起使用,但无法弄清楚为什么同样的东西不能用于boilerpipe。我正在尝试基本上从JRuby中执行与此Java等效的操作:URLurl=newURL("http://www.example.com/some-location/index.html");Stringtext=ArticleExtractor.INSTANCE.getText(url);在JRuby中试过这个:require'java'url=java.net.URL.new("http://www
我只想对我一直在思考的这个问题有其他意见,例如我有classuser_controller和classuserclassUserattr_accessor:name,:usernameendclassUserController//dosomethingaboutanythingaboutusersend问题是我的User类中是否应该有逻辑user=User.newuser.do_something(user1)oritshouldbeuser_controller=UserController.newuser_controller.do_something(user1,user2)我
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Rubysyntaxquestion:Rational(a,b)andRational.new!(a,b)我正在阅读ruby镐书,我对创建有理数的语法感到困惑。Rational(3,4)*Rational(1,2)产生=>3/8为什么Rational不需要new方法(我还注意到例如我可以在没有new方法的情况下创建字符串)?
什么是ruby的rack或python的Java的wsgi?还有一个路由库。 最佳答案 来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht