java - 在潜在语义索引方面需要帮助

coder 2024-03-16 原文

对不起，如果我的问题听起来很愚蠢 :) 你能给我推荐任何伪代码或在 java 中实现 LSI 的好算法吗？我不是数学专家。我试着阅读维基百科和其他网站上的一些文章 LSI(潜在语义索引)他们充满了数学。我知道 LSI 充满了数学。但是如果我看到一些源代码或算法。我更懂事容易地。这就是我在这里问的原因，因为这里有很多 GURU! 提前致谢

最佳答案

LSA 的想法基于一个假设:在同一文档中出现的两个词越多，它们就越相似。事实上，我们可以预期“编程”和“算法”这两个词在同一文档中的出现频率要远高于“编程”和“狗繁殖”。

同样适用于文档:两个文档的常用词/相似词越多，它们本身就越相似。因此，您可以通过单词的频率来表达文档的相似性，反之亦然。

知道了这一点，我们就可以构造一个共现矩阵，其中列名代表文档，行名代表单词，每个cells[i][j]代表频率文档 documents[j] 中的单词 words[i]。频率可以通过多种方式计算，IIRC，原始 LSA 使用 tf-idf指数。

有了这样的矩阵，你可以通过比较相应的列来找到两个文档的相似性。如何比较它们？同样，有几种方法。最流行的是余弦距离。你一定记得在学校数学中，矩阵可以被视为一堆 vector ，所以每一列只是某个多维空间中的一个 vector 。这就是为什么这个模型被称为“vector 空间模型”的原因。更多关于 VSM 和余弦距离的信息 here .

但是这样的矩阵有一个问题:它很大。非常非常大。使用它的计算成本太高，因此我们必须以某种方式减少。 LSA 使用 SVD保留最“重要” vector 的技术。还原矩阵准备好使用后。

所以，LSA 的算法看起来像这样:

从他们那里收集所有文件和所有独特的词。
提取频率信息并构建共现矩阵。
使用 SVD 减少矩阵。

如果您要自己编写 LSA 库，开始的好点是 Lucene搜索引擎，这将使第 1 步和第 2 步变得更加容易，以及一些具有 SVD 功能的高维矩阵的实现，如 Parallel Colt或 UJMP .

还要注意从 LSA 发展而来的其他技术，例如 Random Indexing . RI 使用相同的想法并显示大致相同的结果，但不使用全矩阵阶段并且是完全增量的，这使得它的计算效率更高。

关于java - 在潜在语义索引方面需要帮助，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2017732/

方面 java strong noreferrer noopener algorithm math latent-semantic-indexing

有关java - 在潜在语义索引方面需要帮助的更多相关文章

ruby - 我需要将 Bundler 本身添加到 Gemfile 中吗？ - 2
当我使用Bundler时，是否需要在我的Gemfile中将其列为依赖项？毕竟，我的代码中有些地方需要它。例如，当我进行Bundler设置时:require"bundler/setup" 最佳答案没有。您可以尝试，但首先您必须用鞋带将自己抬离地面。关于ruby-我需要将Bundler本身添加到Gemfile中吗？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/4758609/
ruby - rspec 需要 .rspec 文件中的 spec_helper - 2
我注意到像bundler这样的项目在每个specfile中执行requirespec_helper我还注意到rspec使用选项--require，它允许您在引导rspec时要求一个文件。您还可以将其添加到.rspec文件中，因此只要您运行不带参数的rspec就会添加它。使用上述方法有什么缺点可以解释为什么像bundler这样的项目选择在每个规范文件中都需要spec_helper吗？最佳答案我不在Bundler上工作，所以我不能直接谈论他们的做法。并非所有项目都checkin.rspec文件。原因是这个文件，通常按照当前的惯例，只
ruby - 如何在 Lion 上安装 Xcode 4.6，需要用 RVM 升级 ruby - 2
我实际上是在尝试使用RVM在我的OSX10.7.5上更新ruby，并在输入以下命令后:rvminstallruby我得到了以下回复:Searchingforbinaryrubies,thismighttakesometime.Checkingrequirementsforosx.Installingrequirementsforosx.Updatingsystem.......Errorrunning'requirements_osx_brew_update_systemruby-2.0.0-p247',pleaseread/Users/username/.rvm/log/138121
java - 等价于 Java 中的 Ruby Hash - 2
我真的很习惯使用Ruby编写以下代码:my_hash={}my_hash['test']=1Java中对应的数据结构是什么？最佳答案 HashMapmap=newHashMap();map.put("test",1);我假设？关于java-等价于Java中的RubyHash，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/22737685/
ruby - 有人可以帮助解释类创建的 post_initialize 回调吗 (Sandi Metz) - 2
我正在阅读SandiMetz的POODR，并且遇到了一个我不太了解的编码原则。这是代码:classBicycleattr_reader:size,:chain,:tire_sizedefinitialize(args={})@size=args[:size]||1@chain=args[:chain]||2@tire_size=args[:tire_size]||3post_initialize(args)endendclassMountainBike此代码将为其各自的属性输出1,2,3,4,5。我不明白的是查找方法。当一辆山地自行车被实例化时，因为它没有自己的initialize方法
ruby-on-rails - Cucumber 是否只是 rspec 的包装器以帮助将测试组织成功能？ - 2
只是想确保我理解了事情。据我目前收集到的信息，Cucumber只是一个“包装器”，或者是一种通过将事物分类为功能和步骤来组织测试的好方法，其中实际的单元测试处于步骤阶段。它允许您根据事物的工作方式组织您的测试。对吗？最佳答案有点。它是一种组织测试的方式，但不仅如此。它的行为就像最初的Rails集成测试一样，但更易于使用。这里最大的好处是您的session在整个Scenario中保持透明。关于Cucumber的另一件事是您(应该)从使用您的代码的浏览器或客户端的角度进行测试。如果您愿意，您可以使用步骤来构建对象和设置状态，但通常您
java - 从 JRuby 调用 Java 类的问题 - 2
我正在尝试使用boilerpipe来自JRuby。我看过guide从JRuby调用Java，并成功地将它与另一个Java包一起使用，但无法弄清楚为什么同样的东西不能用于boilerpipe。我正在尝试基本上从JRuby中执行与此Java等效的操作:URLurl=newURL("http://www.example.com/some-location/index.html");Stringtext=ArticleExtractor.INSTANCE.getText(url);在JRuby中试过这个:require'java'url=java.net.URL.new("http://www
java - 我的模型类或其他类中应该有逻辑吗 - 2
我只想对我一直在思考的这个问题有其他意见，例如我有classuser_controller和classuserclassUserattr_accessor:name,:usernameendclassUserController//dosomethingaboutanythingaboutusersend问题是我的User类中是否应该有逻辑user=User.newuser.do_something(user1)oritshouldbeuser_controller=UserController.newuser_controller.do_something(user1,user2)我
ruby - 为什么在 ruby 中创建 Rational 不需要新方法 - 2
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Rubysyntaxquestion:Rational(a,b)andRational.new!(a,b)我正在阅读ruby镐书，我对创建有理数的语法感到困惑。Rational(3,4)*Rational(1,2)产生=>3/8为什么Rational不需要new方法(我还注意到例如我可以在没有new方法的情况下创建字符串)？
java - 什么相当于 ruby 的 rack 或 python 的 Java wsgi？ - 2
什么是ruby的rack或python的Java的wsgi？还有一个路由库。最佳答案来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht

java - 在潜在语义索引方面需要帮助

有关java - 在潜在语义索引方面需要帮助的更多相关文章

随机推荐