草庐IT

mapreduce_shuffle

全部标签

java - 使用 MapReduce Java 解析文件

我正在尝试使用HadoopMapReduce解析一个json文件,但在编译时遇到了我在以前的MapReduce项目中没有遇到的奇怪错误。Mapper.java:43:error:typeMapperdoesnottakeparameterspublicstaticclassMapextendsMapper{^Mapper.java:45:error:cannotfindsymbolpublicvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,InterruptedException{^symbol:cl

python - 如何在 MapReduce 中查找前 10 个元素

我正在尝试在某些数据集上编写PythonMapReduce作业,我必须找到某些统计数据。这是输入数据及其形式的示例:exchange,stock_symbol,date,stock_price_open,stock_price_high,stock_price_low,stock_price_close,stock_volume,stock_price_adj_close.我需要使用查找股票交易量最大的前10天,计算公式为:stock_price_close*stock_volume这是我现在的代码:frommrjob.jobimportMRJobclassMapReduce(MRJo

java - 使用 hadoop-mapreduce-examples-2.7.7.jar 时出错

我有hadoophadoop@nodo1:/opt/hadoop$hadoopversionHadoop2.7.7SubversionUnknown-rc1aad84bd27cd79c3d1a7dd58202a8c3ee1ed3acCompiledbystevelon2018-07-18T22:47ZCompiledwithprotoc2.5.0Fromsourcewithchecksum792e15d20b12c74bd6f19a1fb886490Thiscommandwasrunusing/opt/hadoop/share/hadoop/common/hadoop-common-2

hadoop - 我们可以使用Hadoop MapReduce进行实时数据处理吗?

Hadoopmap-reduce及其回声系统(例如Hive..)我们通常用于批处理。但是我想知道有什么方法可以使用hadoopMapReduce进行实时数据处理示例,例如实时结果,实时推文。如果不是,实时数据处理或分析的替代方法是什么? 最佳答案 带有Map-Reduce的实时应用程序让我们尝试使用Hadoop实现实时应用。要了解这种情况,请考虑使用温度传感器。假设传感器继续工作,我们将继续获取新的读数。因此数据永远不会停止。我们不应该等待数据完成,因为它永远不会发生。然后,也许我们应该继续定期(例如每小时)进行分析。我们可以每小时

apache-spark - 如何优化 Hadoop MapReduce 在 Google Datproc 中压缩 Spark 输出?

目标:需要尽可能快速高效地提取Cassandra中的数百万行并将其压缩到一个文件中(每天)。当前设置使用GoogleDataproc集群运行Spark作业,将数据直接提取到GoogleCloudStorage存储桶中。我尝试了两种方法:使用(现已弃用)FileUtil.copyMerge()将大约9000个Spark分区文件组合成一个未压缩的文件,然后提交一个HadoopMapReduce作业来压缩该单个文件。将大约9000个Spark分区文件保留为原始输出,并提交HadoopMapReduce作业以将这些文件合并并压缩成一个文件。一些工作细节:大约8亿行。Spark作业输出的Spar

hadoop - MapReduce 中的自定义动态分区

我正在使用MapReduce来处理我的数据。我需要将输出存储在日期分区下。我的排序键是日期字符串。现在,如果我在我的自定义分区程序类中覆盖getPartition以返回以下内容:return(formattedDate.hashCode()&Integer.MAX_VALUE)%numReduceTasks;因为我们使用哈希和Mod,在某些情况下我们返回相同的整数值例如:假设numReduceTasks=100现在日期2018-01-20的哈希值可能为101。所以101%100=1现在将其他日期设为2018-02-20,哈希值可能为201。因此201%100=1因此,我们最终将多个日期

hadoop - MapReduce 作业从不进入运行状态

我有一个正确的小jar文件,因为我在其他计算机上测试过它并且它可以与hadoop一起使用。现在我在我的电脑上安装了hadoop,当我提交作业时它永远不会通过接受状态。在浏览器中,我可以看到作业已被接受,但从未执行过。这是屏幕截图。我看到控制台中有一个警告:WARNmapreduce.JobResourceUploader:Hadoopcommand-lineoptionparsingnotperformed.ImplementtheToolinterfaceandexecuteyourapplicationwithToolRunnertoremedythis.完整的日志是:C:\Use

hadoop - 什么是MapReduce应用大师?

来自Hadoop权威指南ThewholeprocessisillustratedinFigure7-1.Atthehighestlevel,therearefiveindependententities:•Theclient,whichsubmitstheMapReducejob.•TheYARNresourcemanager,whichcoordinatestheallocationofcomputere‐sourcesonthecluster.•TheYARNnodemanagers,whichlaunchandmonitorthecomputecontainersonmachin

hadoop - 我可以将 mapreduce 与一对键和一对值一起使用吗?

我的问题是理论性的,我正在尝试为大数据处理中的mapreduce示例进行设计。我的案例需要一对键映射到一对值。例如,如果我们有以下文本:“工学学士有5年经验”我正在尝试以一种我可以分别为每个词赋值的方式来计算工程和经验这两个词。所以根据上面给出的文本示例,我的键是(Engineering,Experience),我的值是(1,1)。请注意,我的作业中两个键值之间存在关系,因此我希望它们都在一组键值中,以确定是否在一个文本文件中提到了两个键,或者只提到了一个键,或者没有提到。请告诉我上述情况是否可以在大数据的map-reduce中进行.. 最佳答案

java - 如何在 Scala 中忽略 "NullPointerException"并继续完成 MapReduce 任务的下一个工作?

我正在我的UbuntuVM中运行Hadoop-MapReduce作业。在中间阶段,我需要检查Hbase数据库是否存在某个字符串数组,如果没有找到则什么都不做并“继续”到下一个作业,而不抛出“NullPointerException”。下面的Scala代码(版本2.11.7)片段检查Hbase数据库中是否存在先前从MapReduce作业创建的行(即字符串数组)。为此,它首先使用.readColocationStoreRow()根据rowName输入读取hbase中的该行,然后如果存在则将其拆分,然后使用.contains()检查该数组的部分是否(由分隔符#分隔)存在于那里。整个作业迭代运