草庐IT

hadoop - 带有序列文件的 Spark RDD take()

coder 2024-01-08 原文

看起来 RDD.take() 只是在序列文件的支持下重复读取的最后一个元素。
例如:

val rdd = sc.sequenceFile("records.seq", classOf[LongWritable], classOf[RecordWritable])
val records: Array[(LongWritable, RecordWritable)] = rdd.take(5)
System.out.println(records.map(_._2.toString).mkString("\n"))

输出:

Record(3.1, 2.5)
Record(3.1, 2.5)
Record(3.1, 2.5)
Record(3.1, 2.5)
Record(3.1, 2.5)

即使我知道行是唯一的。

sc.binaryRecords() 也存在此问题。

我意识到这可能与 Hadoop 可写缓存问题有关,但是否有解决此问题的计划?有任何解决方法吗?

最佳答案

我尝试复制您的问题,是的,当直接对 sc.sequenceFile() 的结果调用 take 时,我也看到了类似的行为。但能够找到解决方法:

注意:我正在解释使用 LongWritable 和 Text 而不是 RecordWritable。我不确定 RecordWritable 所需的导入
我的序列文件有:(0,0) (1,1) (2,2) ...

val rdd = sc.sequenceFile("sequencefile.seq", classOf[LongWritable], classOf[Text])
val map = rdd.map(case (k,v) => (k.get(),v.toString()))
map.take(1);
res5: Array[(Long, String)] = Array((0,0))
map.take(5);
res4: Array[(Long, String)] = Array((0,0), (1,1), (2,2), (3,3), (4,4))

关于hadoop - 带有序列文件的 Spark RDD take(),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33660497/

有关hadoop - 带有序列文件的 Spark RDD take()的更多相关文章

  1. hadoop安装之保姆级教程(二)之YARN的配置 - 2

    1.1.1 YARN的介绍 为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的,针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜,提出了全新的资源管理框架YARN. ApacheYARN(YetanotherResourceNegotiator的缩写)是Hadoop集群的资源管理系统,负责为计算程序提供服务器计算资源,相当于⼀个分布式的操作系统平台,⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现,但是因为具有⾜够的通⽤性,同样可以⽀持其他的分布式计算模

  2. 大数据之Hadoop数据仓库Hive - 2

    目录:一、简介二、HQL的执行流程三、索引四、索引案例五、Hive常用DDL操作六、Hive常用DML操作七、查询结果插入到表八、更新和删除操作九、查询结果写出到文件系统十、HiveCLI和Beeline命令行的基本使用十一、Hive配置一、简介Hive是一个构建在Hadoop之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类SQL查询功能,用于查询的SQL语句会被转化为MapReduce作业,然后提交到Hadoop上运行。特点:简单、容易上手(提供了类似sql的查询语言hql),使得精通sql但是不了解Java编程的人也能很好地进行大数据分析;灵活性高,可以自定义用户函数(UDF)和

  3. Ruby - 读取 zip 文件中的文本文件的最简单方法 - 2

    在Ruby中读取zip文件中的文本文件的最简单方法是什么?类似于PHP的file_get_contents("zip://archive.zip#article.txt") 最佳答案 require'zip/zip'Zip::ZipFile.new("archive.zip").read("article.txt") 关于Ruby-读取zip文件中的文本文件的最简单方法,我们在StackOverflow上找到一个类似的问题: https://stackover

  4. Ubuntu下Hadoop的单机安装 - 2

            云计算实验中要求我们在Linux系统安装Hadoop,故来做一个简单的记录。· 注:我的操作系统环境是Ubuntu-20.04.3,安装的JDK版本为jdk1.8.0_301,安装的Hadoop版本为hadoop2.7.1。(不确定其他版本是否会出现版本兼容问题)Hadoop安装步骤如下:        一、更新apt和安装vim编辑器        二、配置本机无密码登录SSH        三、安装JAVA环境        四、下载安装Hadoop        五、伪分布式搭建一、更新apt和安装vim编辑器1、更新aptsudoapt-getupdate2、安装vim

  5. ruby-on-rails - 给定有序的 id 列表对对象数组进行排序 - 2

    我有一组对象@users,每个对象都有其id属性。@users=[#,#]我还有一个有序的ids数组。ids=[2,1]¿是否有一种神奇的方法可以使用该ID列表对集合进行排序?如果可能,不再次调用数据库。谢谢!!! 最佳答案 其实你不需要排序,建立一个中间的索引散列,它是O(n):users_by_id=Hash[@users.map{|u|[u.id,u]}]users_by_id.values_at(*ids)如果您仍想尝试排序方法,Schwartziantransform就足够了:@users.sort_by{|u|ids.i

  6. ruby-on-rails - ruby 或 rails 中有序数到基数的函数吗? - 2

    我正试图找到一种更好的方式来表达我的cucumber,所以我正在寻找一个将其转换为基数的函数:WhenIfillupthefirstpassengerfieldThenIshouldseethepassengerlistupdatewiththefirstpassengerdetailsWhenIfollow"AddAnotherPassenger"ThenIshouldseeasecondpassengerfieldWhenIfillupthesecondpassengerfieldThenIshouldseethepassengerlistupdatewiththesecondpa

  7. ruby - 除了将其转换为数组之外,还有什么方法可以获取有序哈希的第 N 个键或值吗? - 2

    在Ruby1.9.x中,我有一个维持其顺序的散列hsh={9=>2,8=>3,5=>2,4=>2,2=>1}除此之外还有其他方法可以说出第三个元素的键:hsh.to_a[2][0] 最佳答案 尝试使用Hash#keys和Hash#values:thirdKey=hsh.keys[2]thirdValue=hsh.values[2] 关于ruby-除了将其转换为数组之外,还有什么方法可以获取有序哈希的第N个键或值吗?,我们在StackOverflow上找到一个类似的问题:

  8. ruby - 如何在 Ruby 1.9 中只获取有序哈希的一个子集? - 2

    让我们举个例子:d={"a"=>1,"b"=>2,"c"=>3,"d"=>4}由于哈希现在是有序的,我可能想要从a到b或从c到d。问题是我无法执行d[0..1]或d[2..3]。不过我可以这样做:irb>d.to_a[0..1]=>[["a",1],["b",2]]...但这感觉很乱,我不想为这样的操作转换我的哈希值。是否有更清洁的解决方案来处理这个问题?#HolyGrailirb>d[0..1]=>{"a"=>1,"b"=>2}我可以看到如何为自己编写这样的方法,但可能已经有一些原生的东西我可以使用...? 最佳答案 你可以这样做

  9. MAC系统安装Hadoop - 2

    一、设置免密登录1、系统偏好设置-----共享----勾选远程登录,所有用户2、打开终端,输入命令ssh-keygen-trsa,一直回车即可2.查看生成的公钥和私钥    cd~/.ssh    ls会看到~/.ssh目录下有两个文件:①私钥:id_rsa②公钥:id_rsa.pub3.将公钥内容写入到~/.ssh/authorized_keys中    cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys4.测试在terminal终端输入 sshlocalhost如果出现以下询问输入yes,不需要输入密码就能登录,说明配置成功Areyousureyouw

  10. ruby-on-rails - 如何解压缩包含 Rails 中的文件夹和文件的 zip 文件,同时保持目录结构 - 2

    这个问题在这里已经有了答案:HowtounzipafileinRubyonRails?(4个答案)关闭6年前。我需要使用railsziprailsgem提取一个包含许多文件夹和文件的zip文件。同时保持文件和文件夹的组织方式与压缩时的方式一致。这并不像我想象的那么简单。请参阅我在下面找到的解决方案(添加以供将来引用)

随机推荐