hadoop - 带有序列文件的 Spark RDD take()

coder 2024-01-08 原文

看起来 RDD.take() 只是在序列文件的支持下重复读取的最后一个元素。
例如:

val rdd = sc.sequenceFile("records.seq", classOf[LongWritable], classOf[RecordWritable])
val records: Array[(LongWritable, RecordWritable)] = rdd.take(5)
System.out.println(records.map(_._2.toString).mkString("\n"))

输出:

Record(3.1, 2.5)
Record(3.1, 2.5)
Record(3.1, 2.5)
Record(3.1, 2.5)
Record(3.1, 2.5)

即使我知道行是唯一的。

sc.binaryRecords() 也存在此问题。

我意识到这可能与 Hadoop 可写缓存问题有关，但是否有解决此问题的计划？有任何解决方法吗？

最佳答案

我尝试复制您的问题，是的，当直接对 sc.sequenceFile() 的结果调用 take 时，我也看到了类似的行为。但能够找到解决方法:

注意:我正在解释使用 LongWritable 和 Text 而不是 RecordWritable。我不确定 RecordWritable 所需的导入
我的序列文件有:(0,0) (1,1) (2,2) ...

val rdd = sc.sequenceFile("sequencefile.seq", classOf[LongWritable], classOf[Text])
val map = rdd.map(case (k,v) => (k.get(),v.toString()))
map.take(1);
res5: Array[(Long, String)] = Array((0,0))
map.take(5);
res4: Array[(Long, String)] = Array((0,0), (1,1), (2,2), (3,3), (4,4))

关于hadoop - 带有序列文件的 Spark RDD take()，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33660497/

列文有序 code section strong hadoop apache-spark sequencefile

有关hadoop - 带有序列文件的 Spark RDD take()的更多相关文章

hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
大数据之Hadoop数据仓库Hive - 2
目录：一、简介二、HQL的执行流程三、索引四、索引案例五、Hive常用DDL操作六、Hive常用DML操作七、查询结果插入到表八、更新和删除操作九、查询结果写出到文件系统十、HiveCLI和Beeline命令行的基本使用十一、Hive配置一、简介Hive是一个构建在Hadoop之上的数据仓库，它可以将结构化的数据文件映射成表，并提供类SQL查询功能，用于查询的SQL语句会被转化为MapReduce作业，然后提交到Hadoop上运行。特点：简单、容易上手(提供了类似sql的查询语言hql)，使得精通sql但是不了解Java编程的人也能很好地进行大数据分析；灵活性高，可以自定义用户函数(UDF)和
Ruby - 读取 zip 文件中的文本文件的最简单方法 - 2
在Ruby中读取zip文件中的文本文件的最简单方法是什么？类似于PHP的file_get_contents("zip://archive.zip#article.txt") 最佳答案 require'zip/zip'Zip::ZipFile.new("archive.zip").read("article.txt") 关于Ruby-读取zip文件中的文本文件的最简单方法，我们在StackOverflow上找到一个类似的问题： https://stackover
Ubuntu下Hadoop的单机安装 - 2
云计算实验中要求我们在Linux系统安装Hadoop，故来做一个简单的记录。· 注：我的操作系统环境是Ubuntu-20.04.3，安装的JDK版本为jdk1.8.0_301，安装的Hadoop版本为hadoop2.7.1。（不确定其他版本是否会出现版本兼容问题）Hadoop安装步骤如下：一、更新apt和安装vim编辑器二、配置本机无密码登录SSH 三、安装JAVA环境四、下载安装Hadoop 五、伪分布式搭建一、更新apt和安装vim编辑器1、更新aptsudoapt-getupdate2、安装vim
ruby-on-rails - 给定有序的 id 列表对对象数组进行排序 - 2
我有一组对象@users，每个对象都有其id属性。@users=[#,#]我还有一个有序的ids数组。ids=[2,1]¿是否有一种神奇的方法可以使用该ID列表对集合进行排序？如果可能，不再次调用数据库。谢谢!!! 最佳答案其实你不需要排序，建立一个中间的索引散列，它是O(n):users_by_id=Hash[@users.map{|u|[u.id,u]}]users_by_id.values_at(*ids)如果您仍想尝试排序方法，Schwartziantransform就足够了:@users.sort_by{|u|ids.i
ruby-on-rails - ruby 或 rails 中有序数到基数的函数吗？ - 2
我正试图找到一种更好的方式来表达我的cucumber，所以我正在寻找一个将其转换为基数的函数:WhenIfillupthefirstpassengerfieldThenIshouldseethepassengerlistupdatewiththefirstpassengerdetailsWhenIfollow"AddAnotherPassenger"ThenIshouldseeasecondpassengerfieldWhenIfillupthesecondpassengerfieldThenIshouldseethepassengerlistupdatewiththesecondpa
ruby - 除了将其转换为数组之外，还有什么方法可以获取有序哈希的第 N 个键或值吗？ - 2
在Ruby1.9.x中，我有一个维持其顺序的散列hsh={9=>2,8=>3,5=>2,4=>2,2=>1}除此之外还有其他方法可以说出第三个元素的键:hsh.to_a[2][0] 最佳答案尝试使用Hash#keys和Hash#values:thirdKey=hsh.keys[2]thirdValue=hsh.values[2] 关于ruby-除了将其转换为数组之外，还有什么方法可以获取有序哈希的第N个键或值吗？，我们在StackOverflow上找到一个类似的问题：
ruby - 如何在 Ruby 1.9 中只获取有序哈希的一个子集？ - 2
让我们举个例子:d={"a"=>1,"b"=>2,"c"=>3,"d"=>4}由于哈希现在是有序的，我可能想要从a到b或从c到d。问题是我无法执行d[0..1]或d[2..3]。不过我可以这样做:irb>d.to_a[0..1]=>[["a",1],["b",2]]...但这感觉很乱，我不想为这样的操作转换我的哈希值。是否有更清洁的解决方案来处理这个问题？#HolyGrailirb>d[0..1]=>{"a"=>1,"b"=>2}我可以看到如何为自己编写这样的方法，但可能已经有一些原生的东西我可以使用...？最佳答案你可以这样做
MAC系统安装Hadoop - 2
一、设置免密登录1、系统偏好设置-----共享----勾选远程登录，所有用户2、打开终端，输入命令ssh-keygen-trsa，一直回车即可2.查看生成的公钥和私钥 cd~/.ssh ls会看到~/.ssh目录下有两个文件：①私钥：id_rsa②公钥：id_rsa.pub3.将公钥内容写入到~/.ssh/authorized_keys中 cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys4.测试在terminal终端输入 sshlocalhost如果出现以下询问输入yes，不需要输入密码就能登录，说明配置成功Areyousureyouw
ruby-on-rails - 如何解压缩包含 Rails 中的文件夹和文件的 zip 文件，同时保持目录结构 - 2
这个问题在这里已经有了答案:HowtounzipafileinRubyonRails?(4个答案)关闭6年前。我需要使用railsziprailsgem提取一个包含许多文件夹和文件的zip文件。同时保持文件和文件夹的组织方式与压缩时的方式一致。这并不像我想象的那么简单。请参阅我在下面找到的解决方案(添加以供将来引用)

hadoop - 带有序列文件的 Spark RDD take()

有关hadoop - 带有序列文件的 Spark RDD take()的更多相关文章

随机推荐