草庐IT

hadoop - 如何在 Spark 上运行 Mahout

我最近注意到有一些关于在Spark而不是MapReduce上运行Mahout算法的讨论。但是我找不到任何文档。有人能告诉我是否可以在Spark上运行Mahout算法吗?如果是这样,对我们可以运行的算法有什么限制吗? 最佳答案 是的,mahout现在可以在Spark上运行(即新版本v0.10.0)。记录了不同引擎上可用的算法here.这些在Spark上可用:MahoutDistributedBLAS.DistributedRowMatrixAPIwithRandMatlablikeoperators.DistributedALS,SP

Hadoop 输入格式 - 使用

我知道Hadoop中的不同文件格式吗?默认情况下,hadoop使用文本输入格式。使用文本输入格式的优点/缺点是什么。avro相对于文本输入格式的优点/缺点是什么。另外请帮助我了解不同文件格式(Avro、Sequence、TextInput、RCFile)的用例。 最佳答案 我认为除了内容易于阅读和友好之外,默认文本没有任何优势。您可以通过发出Hadoopfs-cat轻松查看内容。文本格式的缺点是占用磁盘资源较多,影响生产作业效率。写入/解析文本记录需要更多时间如果文本由多列组成,则没有维护数据类型的选项。Sequence、Avro、

hadoop - 关于 YARN 的查询(故障模式、容器大小、实例)

我想问几个问题来理解YARN的工作原理:任何人都可以解释或引用任何可以轻松了解YARN中故障模式的文档(即任务故障、应用程序主机故障、节点管理器故障、资源管理器故障)YARN中的容器大小是多少?和Mapreduce1中的slot一样吗?YARN的任何实际/工作示例?谢谢 最佳答案 请参阅Hadoop权威指南教科书...除此之外,apache网站上还有很多信息。容器大小不是固定的,它是根据资源管理器的要求动态分配的。从开发人员的角度来看,相同的旧map-reduce将适用于YARN。ResourceManager失败在YARN框架的初

csv - 使用 pig 过滤 CSV 列

嗨,stackoverflow社区;我是pig的新手,我有一个CSV文件,其中包含5列标题,如下所示:专栏1|专栏2|专栏3|专栏4|column5测试1012|测试2045|测试3250|测试4865|test5110测试1245|测试2047|测试3456|测试4234|测试5221…………我只想对第1、3和4列进行排序,但我不知道如何按列标题进行过滤。如果您能指出可以完成我想做的事情的正确功能,那就太好了。谢谢! 最佳答案 假设您像下面这样加载它(假设它使用逗号作为分隔符),那么您可以只使用ORDERBY功能。myInput=

hadoop - 计算 PIG 中的平均值 |和其他东西

我是PIG的新手,因此是一个绝对的初学者。我有一个.txt文件,其条目如下所示:NameMatriculationNumberGradeNameofSubjectECTSJohnWilliam0789328322.7Research5JohnWilliam0789328322.3InternationalManagement10JohnWilliam0789328321.7Math5正如您所看到的,在文本文件中有许多关于同一个人但不同科目的条目(当然)不同的成绩。我想计算每个学生的平均成绩。对于示例数据,我必须执行以下操作才能获得平均成绩:(2.7*5+2.3*10+1.7*5)/20

eclipse - hadoop 将输出写入 hdfs 文件

我已经编写了我的第一个mapreduce程序,当我在eclipse中运行它时,它会写入输出文件并按预期工作。但是,当我使用hadoopjarmyjar.jar从命令行运行它时,结果没有写入输出文件。正在创建输出文件(_SUCCESS和part-r-0000),但它们是空的。有任何持久性问题吗?减少输入记录=12但减少输出记录=0。但是如果我在eclipse中这样做,那么它就不为零。在Eclipse中,减少输出记录不是0。任何帮助表示赞赏。谢谢[cloudera@quickstartDesktop]$sudohadoopjarcheckjar.jarhdfs://quickstart.c

java - 如何将 Hadoop MapReduce 作业限制在一定数量的节点上?

所以,基本上我有一个包含4个数据节点的系统。但是,为了检查我的hadoop应用程序的可伸缩性,我想用1、2和4个节点对其进行测试。那么,如何将hadoop使用的节点数限制为1或2个。我使用的是hadoop2.5.1,我没有系统的管理员权限。此外,如何控制hadoop用于节点的内核数? 最佳答案 您需要管理员权限才能执行所有操作如何将hadoop使用的节点数限制为1或2个。Decommission2-3个节点如何控制hadoop为节点使用的内核数在yarn-site.xml中设置以下配置,为每个节点分配8个vcoreyarn.node

hadoop - MRUnit 不适用于 MultipleOutputs

当我运行带有MultipleOutputs的基本MRUnit时,出现以下异常:java.lang.NullPointerExceptionatorg.apache.hadoop.fs.Path.(Path.java:105)atorg.apache.hadoop.fs.Path.(Path.java:94)atorg.apache.hadoop.mapreduce.lib.output.FileOutputFormat.getDefaultWorkFile(FileOutputFormat.java:264)atorg.apache.hadoop.mapreduce.lib.outpu

java - hdfs 文件在伪分布式单节点集群中的位置?

我以伪分布式模式在单个节点上安装了hadoop。dfs.replication值为1,hdfs中的文件默认存放在哪里?我使用的hadoop版本是2.5.1。 最佳答案 dfs.datanode.data.dir:确定DFS数据节点应在本地文件系统中存储其block的位置。如果这是一个逗号分隔的目录列表,那么数据将存储在所有命名的目录中,通常在不同的设备上。不存在的目录将被忽略。此属性的默认值为:file://${hadoop.tmp.dir}/dfs/data您可以在core-site.xml文件中配置${hadoop.tmp.di

scala - Spark 中的低 CPU 使用率

我在一台8核机器上以本地模式运行Spark作业。它具有本地SSD和64GBRAM。HDFS在同一台机器上以伪分布式模式运行。运行以下作业时,我无法获得CPU利用率以超过单个内核的最大值。RAM使用量保持在10GB以下。环回接口(interface)的最大值约为333MB/s。无论哪种方式,磁盘IO通常都低于30MB/s。我该如何编写才能更好地利用我的硬件资源?objectFilterProperty{defmain(args:Array[String]){valconf=newSparkConf().setAppName("FilterClaimsDataforProperty").s