草庐IT

可读写

全部标签

hadoop - MPI 读写 HDFS

有谁知道从MPI中读取/写入文件到我的hdfs的好方法吗?我已经进行了大量的挖掘工作,试图弄清楚这一点,只需要一个大致的方向即可。 最佳答案 MPI标准中有一整章是关于MPII/O的。我将从那里开始阅读。MPI实现有这个实现,通常使用ROMIO。您也可以看看那个。 关于hadoop-MPI读写HDFS,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/23943803/

java - 如何高效读写Parquet文件?

我正在开发一种实用程序,它一次读取多个parquet文件并将它们写入一个输出文件。实现非常简单。该实用程序从目录中读取parquet文件,从所有文件中读取Group并将它们放入列表中。然后使用ParquetWrite将所有这些组写入一个文件中。读取600mb后,它抛出Java堆空间内存不足错误。读写500mb的数据也需要15-20分钟。Isthereawaytomakethisoperationmoreefficient?读取方法如下所示:ParquetFileReaderreader=newParquetFileReader(conf,path,ParquetMetadataConv

hadoop - 无法更改对 hdfs 目录的读写权限

我正在尝试将文本文件复制到hdfs位置。我遇到了访问问题,所以我尝试更改权限。但我无法更改同样面临以下错误:chaithu@localhost:~$hadoopfs-puttest.txt/userput:Permissiondenied:user=chaithu,access=WRITE,inode="/user":hdfs:supergroup:drwxr-xr-xchaithu@localhost:~$hadoopfs-chmod777/userchmod:changingpermissionsof'/user':Permissiondenied.user=chaithuisno

Java 读写 Spark Vector 到 Hdfs

我写了Vector的(org.apache.spark.mllib.linalg.Vector)到HDFS如下publicvoidwritePointsToFile(Pathpath,FileSystemfs,Configurationconf,Listpoints)throwsIOException{SequenceFile.Writerwriter=SequenceFile.createWriter(conf,Writer.file(path),Writer.keyClass(LongWritable.class),Writer.valueClass(Vector.class));

hadoop - hadoop 存储文件的位置,以便以编程方式通过 HDFS 进行读写

我在我的机器上使用伪分布模式设置并在我的eclipseIDE中创建了以下程序:这个程序只是将输入文件合并到HDFS中的单个文件。importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FSDataInputStream;importorg.apache.hadoop.fs.FSDataOutputStream;importorg.apache.hadoop.fs.FileStatus;importorg.apache.hadoop.fs.FileSys

C++|读写xml文件开源库tingxml2的使用

参考:TinyXML使用方法[通俗易懂]https://cloud.tencent.com/developer/article/2037579TinyXML2入门教程(这篇写很好,本文侧重讲解使用不过做多介绍)不了解xml的建议自行查阅,在此不赘述。开源库github链接:https://github.com/leethomason/tinyxml2使用git直接拉取还是下载zip包都可tinyxml2相比tinyxml进行了简化,只需要一个.h和一个.cpp即可使用,我下载的zip,解压完成后将tinyxml2.h和tinyxml2.cpp复制进自己的项目中即可。在使用的地方包含头文件和命名

java - Spark 中的序列文件 - 读写自定义

我们有一个早期构建在Hadoop上的数据管道。但现在我们正在尝试将我们的一些应用程序移植到Spark。在我们的数据管道中,我们使用序列文件作为每个阶段的OP,并将其传递到下一阶段。因此,已经为Hadoop编写了自定义类,它们实现了可写接口(interface)来存储这些数据。如果我试图通过创建该类的对象并将其保存为序列文件来在Spark中使用它,我会收到类似这样的错误Text/IntWritable或任何其他不可序列化的可写类。有什么方法可以使用这些自定义类将序列文件保存在Spark中。该类已经存在于Java中,我不想修改它们示例示例publicclassAbcimplementsWr

hadoop - Pivotal HDB - 如何将数据从 HAWQ 内部/外部可读表推送到 Greenplum

我们有小型hadoop和Greenplum集群。当前的数据管道流程是:Externaltable>>hadoop-hawqexternalreadbaletable>>hawqinternaltable.输出:1.我们正在尝试使用GREENPLUM扩展数据管道。基本上是想将HAWQ内部表或外部可读表数据直接推送到greenplum中。原因是因为我们要编辑我们的文件。另外,HAWQ不支持更新和删除。是否有任何替代方法来处理或推送数据。请指导。2.如何使用gphdfs协议(protocol)通过GPDB外部表访问HDFS数据提前致谢! 最佳答案

hadoop - flink streaming job中如何读写HBase

如果我们必须在流式应用程序中读取和写入HBASE,我们该怎么做。我们通过open方法打开连接进行写入,我们如何打开连接进行读取。objecttest{if(args.length!=11){//printargsSystem.exit(1)}valArray()=argsprintln("ParametersPassed"+...);valenv=StreamExecutionEnvironment.getExecutionEnvironmentvalproperties=newProperties()properties.setProperty("bootstrap.servers"

hadoop - 为什么 Hadoop MapReduce 对于迭代算法每次迭代都要进行磁盘读写?

我知道对于迭代算法,Hadoopmapreduce表现不佳,因为它为每次迭代执行完整的磁盘读/写。但是为什么呢?是为了系统的健壮性吗? 最佳答案 你的问题有点宽泛,但我还是会尽力回答。Hadoop做任何算法的磁盘读/写操作都是因为Hadoop做的是面向磁盘的处理,它就是建立在这个原理上的。这也是开发spark的原因之一,将计算从磁盘转移到内存,以便它可以减少面向磁盘的计算的延迟开销。现在,对于每次MapReduce迭代,这种从/到磁盘的读/写操作有助于系统的健壮性和可靠性。考虑一个最简单的例子,一个工作节点有2个容器,这意味着两个独