hadoop - Mahout 行相似度

coder 2024-01-06 原文

我正在尝试计算维基百科文档之间的行相似度。我有格式为 Key class: class org.apache.hadoop.io.Text Value Class: class org.apache.mahout.math.VectorWritable 的 tf-idf 向量。我正在从这里开始快速浏览文本分析:https://cwiki.apache.org/confluence/display/MAHOUT/Quick+tour+of+text+analysis+using+the+Mahout+command+line

我创建了一个象夫矩阵如下:

mahout rowid \
   -i wikipedia-vectors/tfidf-vectors/part-r-00000
   -o wikipedia-matrix

我得到了生成的行数和列数:

vectors.RowIdJob: Wrote out matrix with 4587604 rows and 14121544 columns to wikipedia-matrix/matrix

矩阵的格式是Key class: class org.apache.hadoop.io.IntWritable Value Class: class org.apache.mahout.math.VectorWritable

我还有一个 docIndex 文档，格式如下: Key class: class org.apache.hadoop.io.IntWritable Value Class: class org.apache.hadoop.io.Text

然后当我运行 rowsimilarity 作业时

mahout rowsimilarity 
   -i wikipedia-matrix/matrix 
   -o wikipedia-similarity 
   -r 4587604
   --similarityClassname SIMILARITY_COSINE
   -m 50
   -ess

我收到以下错误:

13/08/25 15:18:18 INFO mapred.JobClient: Task Id : attempt_201308161435_0364_m_000001_1, Status : FAILED
java.lang.ClassCastException: org.apache.hadoop.io.Text cannot be cast to org.apache.mahout.math.VectorWritable
    at org.apache.mahout.math.hadoop.similarity.cooccurrence.RowSimilarityJob$VectorNormMapper.map(RowSimilarityJob.java:183)
    at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:144)
    at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:648)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:322)
    at org.apache.hadoop.mapred.Child$4.run(Child.java:266)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:396)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1278)
    at org.apache.hadoop.mapred.Child.main(Child.java:260)

有人可以帮我解决这个错误吗？当输入矩阵的格式为 Key class: class org.apache.hadoop.io.IntWritable Value Class:类 org.apache.mahout.math.VectorWritable

非常感谢。

最好的，德拉甘

最佳答案

我用下面的命令解决了这个问题:

hadoop jar mahout-examples-0.9-SNAPSHOT.jar 
org.apache.mahout.math.hadoop.similarity.cooccurrence.RowSimilarityJob 
-i /user/dmilchev/wikipedia-matrix/matrix 
-o /user/dmilchev/wikipedia-similarity 
-r 4587604 --similarityClassname SIMILARITY_COSINE -m 50 -ess

我没有收到任何错误。

关于hadoop - Mahout 行相似度，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18429571/

有关hadoop - Mahout 行相似度的更多相关文章

hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
ruby-on-rails - 需要帮助最大化多个相似对象中的 3 个因素并适当排序 - 2
我需要用任何语言编写一个算法，根据3个因素对数组进行排序。我以度假村为例(如Hipmunk)。假设我想去度假。我想要最便宜的地方、最好的评论和最多的景点。但是，显然我找不到在所有3个中都排名第一的方法。Example(assumingthereare20importantattractions):ResortA:$150/night...98/100infavorablereviews...18of20attractionsResortB:$99/night...85/100infavorablereviews...12of20attractionsResortC:$120/night
java - java和ruby的主要区别和相似之处是什么？ - 2
关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题editingthispost.关闭9年前。Improvethisquestion我现在是java专业人士，我喜欢使用ruby。这两种语言有什么相似之处吗？主要区别是什么？因为两者都是面向对象的。
ruby - 按相似性对字符串进行分组 - 2
我有一个字符串数组，数量不多(可能几百个)但通常很长(几百个字符)。这些字符串通常是无意义的，并且彼此不同。但是在一组这样的字符串中，可能300个中有5个具有很大的相似性。事实上，它们是相同的字符串，不同的是格式、标点符号和一些单词..我怎样才能算出那组字符串？顺便说一句，我正在用ruby编写，但如果没有别的，伪代码算法就可以了。谢谢最佳答案假设您不担心每个单词的拼写错误或其他错误，您可以执行以下操作:构建一个倒排索引，它基本上是一个以单词为键的散列，指向包含该单词的字符串的指针列表(如何处理重复出现由您决定)。要确定与给定
大数据之Hadoop数据仓库Hive - 2
目录：一、简介二、HQL的执行流程三、索引四、索引案例五、Hive常用DDL操作六、Hive常用DML操作七、查询结果插入到表八、更新和删除操作九、查询结果写出到文件系统十、HiveCLI和Beeline命令行的基本使用十一、Hive配置一、简介Hive是一个构建在Hadoop之上的数据仓库，它可以将结构化的数据文件映射成表，并提供类SQL查询功能，用于查询的SQL语句会被转化为MapReduce作业，然后提交到Hadoop上运行。特点：简单、容易上手(提供了类似sql的查询语言hql)，使得精通sql但是不了解Java编程的人也能很好地进行大数据分析；灵活性高，可以自定义用户函数(UDF)和
ruby-on-rails - PostgreSQL 与 Rails ActiveRecord 中的多个匹配相似 - 2
我正在尝试使用以下查询从我的数据库中检索多条记录:User.where('nameilike?','%thomas%')这很好用。现在我想同时检索多条记录并尝试了这个(这在语法上似乎是不正确的):User.where('nameilikeany',['%thomas%','%james%','%martin%'])我做错了什么？所以澄清一下:我想检索与其中一个名称匹配的所有记录，所以它是我正在寻找的OR语句。最佳答案你可以这样做User.where('nameilikeany(array[?])',['%thomas%','%j
ruby-on-rails - 使用相似键加载和生成 Yaml 文件 - 2
我有一个具有相似键的yaml文件文档:-示例文件.ymlline:title:line-namedepartment:transcriptioninput_formats:-input_format:name:companyrequired:truevalid_type:general-input_format:name:websiterequired:falsevalid_type:url生成new_file.yml后，键将按字母顺序排序:-new_file.ymlline:department:transcriptioninput_formats:-input_format:nam
Ubuntu下Hadoop的单机安装 - 2
云计算实验中要求我们在Linux系统安装Hadoop，故来做一个简单的记录。· 注：我的操作系统环境是Ubuntu-20.04.3，安装的JDK版本为jdk1.8.0_301，安装的Hadoop版本为hadoop2.7.1。（不确定其他版本是否会出现版本兼容问题）Hadoop安装步骤如下：一、更新apt和安装vim编辑器二、配置本机无密码登录SSH 三、安装JAVA环境四、下载安装Hadoop 五、伪分布式搭建一、更新apt和安装vim编辑器1、更新aptsudoapt-getupdate2、安装vim
MAC系统安装Hadoop - 2
一、设置免密登录1、系统偏好设置-----共享----勾选远程登录，所有用户2、打开终端，输入命令ssh-keygen-trsa，一直回车即可2.查看生成的公钥和私钥 cd~/.ssh ls会看到~/.ssh目录下有两个文件：①私钥：id_rsa②公钥：id_rsa.pub3.将公钥内容写入到~/.ssh/authorized_keys中 cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys4.测试在terminal终端输入 sshlocalhost如果出现以下询问输入yes，不需要输入密码就能登录，说明配置成功Areyousureyouw
ruby-on-rails - Ruby 比较两个字符串相似度百分比 - 2
我想在Ruby中比较两个字符串并找出它们的相似性我看过Levenshteingem，但它似乎是2008年的最后一次更新，我找不到如何使用它的文档。一些博客暗示它坏了我用Levenshtein尝试了textgem，但它给出了一个整数(越小越好)显然，如果这两个字符串的长度可变，我会遇到Levenshtein算法的问题(比方说比较两个名字，其中一个有中间名而另一个没有)。您建议我如何进行百分比比较？编辑:我正在寻找类似于PHP的similartext的东西最佳答案我认为您的问题可以做一些澄清，但这里有一些快速而肮脏的东西(根据您上面

hadoop - Mahout 行相似度

有关hadoop - Mahout 行相似度的更多相关文章

随机推荐