草庐IT

Serialization

全部标签

java - 关于 Hadoop 中的序列化 : what are the advantages of serialization?

我对Hadoop数据流中的序列化有点困惑。假设我有一个定义如下的Java对象(该对象可能比我展示的要复杂得多):publicvoidMyObject{privateintField1;privateStringField2;publicvoidmethod1(){}...}要在映射器和缩减器之间传输此对象的实例,有两种方法:第一种方法-我可以在映射器中一个一个地序列化int字段和String字段并将它们写入输出,然后在reducer中,我读取它们并使用它们创建MyObject的新实例值。假设新创建的实例与原始实例相比没有区别。第二种方法-我可以重写MyObject以实现Writable

java - spark map 方法抛出序列化异常

我是Spark的新手,我在map函数中遇到序列化问题。这是代码的一些元素privateFunctionSparkMap()throwsIOException{returnnewFunction(){publicStringcall(Rowrow)throwsIOException{/*somecode*/}};}publicstaticvoidmain(String[]args)throwsException{MyClassmyClass=newMyClass();SQLContextsqlContext=newSQLContext(sc);DataFramedf=sqlContext

java - 在 Mahout 中序列化 RandomAccessSparseVector

我正在Mahout0.7中将数据加载到RandomAccessSparseVector中,但我不知道如何序列化它。如果我使用的是VectorWritable,我将能够像这样使用SequenceFile.Writer:writer=newSequenceFile.Writer(fs,conf,newPath("filename"),LongWritable.class,VectorWritable.class);不幸的是,没有RandomAccessSparseVectorWritable。一种选择是完全忘记稀疏vector并将数据加载到VectorWritable中并将其序列化。我想避

serialization - 未找到 Hadoop 序列化器异常

我有一个输出格式为SequenceFileOuputFormat的作业。我这样设置输出键和值类:conf.setOutputKeyClass(IntWritable.class);conf.setOutputValueClass(SplitInfo.class);SplitInfo类实现了Serializable、Writable我将io.serializations属性设置如下:conf.set("io.serializations","org.apache.hadoop.io.serializer.JavaSerialization,"+"org.apache.hadoop.io.

R:从序列化对象中创建 CSV

我正在尝试获取一个列表并将每个项目序列化,然后将其放入一个带有键的CSV文件中,以创建一个包含键/值对的文本文件。最终这将通过Hadoop流运行,所以在您询问之前,我认为它确实需要在文本文件中。(但我对其他想法持开放态度)起初这一切似乎都很简单。但是我不能完全按照我想要的方式进行序列化(still)。如果我这样做:>rawToChar(serialize("blah",NULL,ascii=T))[1]"A\n2\n133888\n131840\n16\n1\n9\n4\nblah\n"然后我有那些讨厌的\n搞砸了我的CSV解析。我可以进去用其他一些字符串替换\n,我不反对这样做。然而

apache - 使用反射将 pojo 写入 parquet 文件

HI正在寻找API来使用我拥有的Pojos编写parquest。我能够使用反射生成avro模式,然后使用AvroSchemaConverter创建Parquet模式。此外,我无法找到将Pojos转换为GenericRecords(avro)的方法,否则我本可以使用AvroParquetWriter将Pojos写入Parquet文件。有什么建议吗? 最佳答案 如果你想通过avro,你有两个选择:1)让avro生成您的pojo(参见教程here)。生成的pojo扩展了SpecificRecord,然后可以将其与AvroParquetWr

java - Hadoop:无需 Writable 接口(interface)即可将对象作为输出值的简单方法

我正在尝试利用hadoop来训练多个模型。我的数据足够小,可以放入内存,所以我想在每个maptask中训练一个模型。我的问题是,当我完成模型训练后,我需要将它发送到reducer。我正在使用Weka来训练模型。我不想开始寻找如何在Weka类中实现Writable接口(interface),因为它需要很多努力。我正在寻找一种简单的方法来做到这一点。Weka中的Classifier类实现了Serializable接口(interface)。我怎样才能将这个对象发送到reducer?edits这是提到weka对象序列化的链接:http://weka.wikispaces.com/Serial

scala - Spark 任务不可序列化(案例类)

当我在闭包中使用扩展Serializable的案例类或类/对象时,Spark抛出Tasknotserializable。objectWriteToHbaseextendsSerializable{defmain(args:Array[String]){valcsvRows:RDD[Array[String]=...valdateFormatter=DateTimeFormat.forPattern("yyyy-MM-ddHH:mm:ss")valusersRDD=csvRows.map(row=>{newUserTable(row(0),row(1),row(2),row(9),row

java - Phoenix 无法正确显示负整数值

我正在创建一个值为-17678的HBASE表。但是当我从pheonix取回它时,它给了我不同的正值。RowKey是复合rowkey,rowkey没有问题。Hbase插入:publicclasstest{publicstaticvoidmain(Stringargs[]){Configurationconfig=HBaseConfiguration.create();Connectionconnection=ConnectionFactory.createConnection(config);Tabletable=connection.getTable(TableName.valueOf

php - session_start() php 中的 UnexpectedValueException 导致 SPLObjectStorage 序列化失败

为什么UnexpectedValueException会在session_start()中抛出?我的对象具有SPLObjectstorage的属性。该对象被分配给session,如$_SESSION['foo']=$barObject;我怀疑内部session序列化面临解码问题。我将session存储在数据库中,看起来它正在序列化objectStorage但无法对其进行解码。示例session数据self|O:4:"User":8:{s:5:"�*�id";N;s:7:"�*�nick";N;s:13:"�*�reputation";i:1;s:11:"�*�password";N;s