HADOOP_草庐IT

hadoop - 如何在 Spark 上运行 Mahout

我最近注意到有一些关于在Spark而不是MapReduce上运行Mahout算法的讨论。但是我找不到任何文档。有人能告诉我是否可以在Spark上运行Mahout算法吗？如果是这样，对我们可以运行的算法有什么限制吗？最佳答案是的，mahout现在可以在Spark上运行(即新版本v0.10.0)。记录了不同引擎上可用的算法here.这些在Spark上可用:MahoutDistributedBLAS.DistributedRowMatrixAPIwithRandMatlablikeoperators.DistributedALS,SP

何在 hadoop section mahout Spark apache-spark

Hadoop 输入格式 - 使用

我知道Hadoop中的不同文件格式吗？默认情况下，hadoop使用文本输入格式。使用文本输入格式的优点/缺点是什么。avro相对于文本输入格式的优点/缺点是什么。另外请帮助我了解不同文件格式(Avro、Sequence、TextInput、RCFile)的用例。最佳答案我认为除了内容易于阅读和友好之外，默认文本没有任何优势。您可以通过发出Hadoopfs-cat轻松查看内容。文本格式的缺点是占用磁盘资源较多，影响生产作业效率。写入/解析文本记录需要更多时间如果文本由多列组成，则没有维护数据类型的选项。Sequence、Avro、

Hadoop 输入 strong section Avro

hadoop - 关于 YARN 的查询(故障模式、容器大小、实例)

我想问几个问题来理解YARN的工作原理:任何人都可以解释或引用任何可以轻松了解YARN中故障模式的文档(即任务故障、应用程序主机故障、节点管理器故障、资源管理器故障)YARN中的容器大小是多少？和Mapreduce1中的slot一样吗？YARN的任何实际/工作示例？谢谢最佳答案请参阅Hadoop权威指南教科书...除此之外，apache网站上还有很多信息。容器大小不是固定的，它是根据资源管理器的要求动态分配的。从开发人员的角度来看，相同的旧map-reduce将适用于YARN。ResourceManager失败在YARN框架的初

容器 hadoop ResourceManager ApplicationMaster mapreduce hadoop-yarn

csv - 使用 pig 过滤 CSV 列

嗨，stackoverflow社区；我是pig的新手，我有一个CSV文件，其中包含5列标题，如下所示:专栏1|专栏2|专栏3|专栏4|column5测试1012|测试2045|测试3250|测试4865|test5110测试1245|测试2047|测试3456|测试4234|测试5221…………我只想对第1、3和4列进行排序，但我不知道如何按列标题进行过滤。如果您能指出可以完成我想做的事情的正确功能，那就太好了。谢谢! 最佳答案假设您像下面这样加载它(假设它使用逗号作为分隔符)，那么您可以只使用ORDERBY功能。myInput=

csv section column 39 hadoop hive apache-pig bigdata

hadoop - 计算 PIG 中的平均值 |和其他东西

我是PIG的新手，因此是一个绝对的初学者。我有一个.txt文件，其条目如下所示:NameMatriculationNumberGradeNameofSubjectECTSJohnWilliam0789328322.7Research5JohnWilliam0789328322.3InternationalManagement10JohnWilliam0789328321.7Math5正如您所看到的，在文本文件中有许多关于同一个人但不同科目的条目(当然)不同的成绩。我想计算每个学生的平均成绩。对于示例数据，我必须执行以下操作才能获得平均成绩:(2.7*5+2.3*10+1.7*5)/20

hadoop PIG section code 078932832 hive apache-pig hadoop2

eclipse - hadoop 将输出写入 hdfs 文件

我已经编写了我的第一个mapreduce程序，当我在eclipse中运行它时，它会写入输出文件并按预期工作。但是，当我使用hadoopjarmyjar.jar从命令行运行它时，结果没有写入输出文件。正在创建输出文件(_SUCCESS和part-r-0000)，但它们是空的。有任何持久性问题吗？减少输入记录=12但减少输出记录=0。但是如果我在eclipse中这样做，那么它就不为零。在Eclipse中，减少输出记录不是0。任何帮助表示赞赏。谢谢[cloudera@quickstartDesktop]$sudohadoopjarcheckjar.jarhdfs://quickstart.c

eclipse hadoop mapreduce INFO Number reduce

java - 如何将 Hadoop MapReduce 作业限制在一定数量的节点上？

所以，基本上我有一个包含4个数据节点的系统。但是，为了检查我的hadoop应用程序的可伸缩性，我想用1、2和4个节点对其进行测试。那么，如何将hadoop使用的节点数限制为1或2个。我使用的是hadoop2.5.1，我没有系统的管理员权限。此外，如何控制hadoop用于节点的内核数？最佳答案您需要管理员权限才能执行所有操作如何将hadoop使用的节点数限制为1或2个。Decommission2-3个节点如何控制hadoop为节点使用的内核数在yarn-site.xml中设置以下配置，为每个节点分配8个vcoreyarn.node

定数 MapReduce section hadoop strong java bigdata hadoop-yarn

hadoop - MRUnit 不适用于 MultipleOutputs

当我运行带有MultipleOutputs的基本MRUnit时，出现以下异常:java.lang.NullPointerExceptionatorg.apache.hadoop.fs.Path.(Path.java:105)atorg.apache.hadoop.fs.Path.(Path.java:94)atorg.apache.hadoop.mapreduce.lib.output.FileOutputFormat.getDefaultWorkFile(FileOutputFormat.java:264)atorg.apache.hadoop.mapreduce.lib.outpu

MultipleOutputs hadoop apache java hdfs mrunit

java - hdfs 文件在伪分布式单节点集群中的位置？

我以伪分布式模式在单个节点上安装了hadoop。dfs.replication值为1，hdfs中的文件默认存放在哪里？我使用的hadoop版本是2.5.1。最佳答案 dfs.datanode.data.dir:确定DFS数据节点应在本地文件系统中存储其block的位置。如果这是一个逗号分隔的目录列表，那么数据将存储在所有命名的目录中，通常在不同的设备上。不存在的目录将被忽略。此属性的默认值为:file://${hadoop.tmp.dir}/dfs/data您可以在core-site.xml文件中配置${hadoop.tmp.di

java hdfs hadoop section hadoop-project-dist mapreduce bigdata

scala - Spark 中的低 CPU 使用率

我在一台8核机器上以本地模式运行Spark作业。它具有本地SSD和64GBRAM。HDFS在同一台机器上以伪分布式模式运行。运行以下作业时，我无法获得CPU利用率以超过单个内核的最大值。RAM使用量保持在10GB以下。环回接口(interface)的最大值约为333MB/s。无论哪种方式，磁盘IO通常都低于30MB/s。我该如何编写才能更好地利用我的硬件资源？objectFilterProperty{defmain(args:Array[String]){valconf=newSparkConf().setAppName("FilterClaimsDataforProperty").s

scala Spark section 34 code hadoop apache-spark