草庐IT

mr_collection

全部标签

scala - Spark 会使用此 sortByKey/map/collect 序列保留键顺序吗?

让我们说,我们有这个。valsx=sc.parallelize(Array((0,39),(4,47),(3,51),(1,98),(2,61)))我们后来称之为。valsy=sx.sortByKey(true)这会让sy=RDD[(0,39),(1,98),(2,61),(3,51),(4,47)]然后我们做collected=sy.map(x=>(x._2/10,x._2)).collect我们会一直得到以下信息吗?我的意思是,尽管更改了键值,是否会保留原始键顺序?collected=[(3,39),(9,98),(6,61),(5,51),(4,47)]

如何将值存储在DataGridView中,以在Collection类C#中存储

首先,我将CSV文件导入DataGridView,然后将其更改为我想要的格式。我能够通过单击按钮来过滤我不需要的数据,我可以使用Console.Writeline在控制台中获取所需的数据。(只是为了进行测试,所以我可以看到实际发生的事情)。有很多列不满意我想要计算的数据,所以我使用.contains()和.replace过滤出来。现在,我想存储cell.value.tostring(),该cell.tostring()将值保存到数组中,但我不知道如何将数组植入该数组。这是代码usingSystem;usingSystem.Collections.Generic;usingSystem.Comp

hadoop - 执行错误,从 org.apache.hadoop.hive.ql.exec.mr.MapRedTask 返回代码 1 (state=08S01,code=1)

我已经启动了metastore和hiveserver2#./hive--servicemetastore#./hive--servicehiveserver2当我执行以下查询时#./beeline-ujdbc:hive2://192.168.0.10:10000-e'selectcount(*)fromtest_tb'--hiveconfhive.root.logger=DEBUG,console--verbose=true抛出以下错误Error:Errorwhileprocessingstatement:FAILED:ExecutionError,returncode1fromorg

hadoop - hadoop mr1 和 yarn 和 mr2 之间的区别?

谁能告诉我MR1和yarn和MR2有什么区别我的理解是MR1将具有以下组件名称节点,二级名称节点,数据节点,工作追踪器,任务追踪器yarn节点管理器资源管理器Yarn是由MR1还是MR2组成的(或者MR2和Yarn都是一样的?)对不起,如果我问的是基本水平的问题 最佳答案 MRv1使用JobTracker创建任务并将其分配给任务跟踪器,当集群扩展到足够大(通常大约4,000个集群)时,这可能成为资源瓶颈。MRv2(又名YARN,“YetAnotherResourceNegotiator”)每个集群都有一个资源管理器,每个数据节点都运

hadoop - 如何在CDH5 Hue中设置运行MR作业的配置?

我已经成功安装并启动了CDH5,当我尝试通过Hue运行一个简单的WordCount示例时,我遇到了以下错误。2015-05-1312:58:04,374INFOorg.apache.oozie.command.wf.ActionStartXCommand:SERVER[localhost]USER[hdfs]GROUP[-]TOKEN[]APP[trialWC]JOB[0000000-150513124629466-oozie-oozi-W]ACTION[0000000-150513124629466-oozie-oozi-W@:start:]Startaction[0000000-1

r - 库中的错误(功能): there is no package called ‘functional’ - While running MR using rmr2

我正在尝试在单节点Hadoop集群中使用rmr2运行一个简单的MR程序。这里是设置的环境Ubuntu12.04(32位)R(Ubuntu自带2.14.1,所以更新到3.0.2)从here安装了最新的rmr2和rhdfs以及对应的依赖Hadoop1.2.1现在我正在尝试运行一个简单的MR程序作为Sys.setenv(HADOOP_HOME="/home/training/Installations/hadoop-1.2.1")Sys.setenv(HADOOP_CMD="/home/training/Installations/hadoop-1.2.1/bin/hadoop")libra

hadoop - Spark vs MapReduce,为什么Spark比MR快,原理?

据我所知,Spark将每个节点的磁盘(HDFS)中的数据预加载到每个节点的RDD中进行计算。但正如我猜测的那样,MapReduce必须还将数据从HDFS加载到内存,然后在内存中进行计算。那么..为什么Spark更快速?仅仅因为当MapReduce想要进行计算而Spark预加载数据时,MapReduce每次都将数据加载到内存中?非常感谢。 最佳答案 Spark使用弹性分布式数据集(RDD)的概念,它允许透明地将数据存储在内存中,并在需要时将其保存到磁盘。另一方面,在Mapreduce中,在Map和reduce任务之后数据将被洗牌和排序

hadoop - Parquet-MR AvroParquetWriter - 如何将数据转换为 Parquet(使用特定映射)

我正在开发一种工具,用于将数据从本地格式转换为Parquet和JSON(用于Spark、Drill和MongoDB的不同设置),使用带有特定映射的Avro作为垫脚石。我必须支持定期在客户端机器上转换新数据,这就是为什么我尝试使用(Avro|Parquet|JSON)开关编写自己的独立转换工具,而不是使用Drill或Spark或其他工具作为转换器如果这是一次性工作,我可能会这样做。我将整个事情都基于Avro,因为这似乎是在一个引擎盖下转换为Parquet和JSON的最简单方法。我使用特定映射从静态类型检查中获益,编写了一个IDL,将其转换为schema.avsc,生成类并使用特定构造函数

java - 使用 Java API 将 Parquet 格式写入 HDFS,而不使用 Avro 和 MR

通过直接创建Pojo的ParquetSchema将ParquetFormat写入HDFS(使用JavaAPI)的简单方法是什么,无需使用avro和MR?我发现的示例已过时并且使用了已弃用的方法也使用了Avro、spark或MR之一。 最佳答案 实际上,没有很多示例可用于在没有外部框架帮助的情况下读取/写入Apacheparquet文件。核心parquet库是parquet-column,您可以在其中找到一些直接读取/写入的测试文件:https://github.com/apache/parquet-mr/blob/master/pa

hadoop - Hive collect_list() 不收集 NULL 值

我正在尝试收集包含NULL的列以及该列中的一些值...但是collect_list忽略了NULL并仅收集其中具有值(value)的那些。有没有一种方法可以检索NULL以及其他值?SELECTcol1,col2,collect_list(col3)ascol3FROM(SELECT*FROMtable_1ORDERBYcol1,col2,col3)GROUPBYcol1,col2;实际的col3值0.9NULLNULL0.70.6结果col3值[0.9,0.7,0.6]我希望在应用collect_list之后有一个看起来像这样的配置单元解决方案[0.9,NULL,NULL,0.7,0.6