草庐IT

jvm-serializers

全部标签

hadoop - 如何在单个 JVM 中运行 hadoop 多线程方式?

我有4个核心桌面,想使用我所有的核心通过hadoop进行本地数据处理。(即有时我有足够的能力在本地处理数据,有时我将相同的作业提交到集群)。默认情况下,hadoop本地模式仅运行一个映射器和一个缩减器,因此我的本地作业非常慢。由于“痛苦”的配置,我不想首先在单台机器上设置集群,其次我每次都必须创建jar。如此完美的解决方案是如何在单机上运行嵌入式HadoopPS伪分布式模式是一个糟糕的选择,因为它会创建单节点集群,所以我只会得到一个映射器,我不得不花一些时间进行额外的配置。 最佳答案 您需要使用MultithreadedMapRun

serialization - 在 Scalding 中读写案例类

有人可以给我指向一个链接,该链接解释了如何在scalding中读取和编写简单的案例类吗?是否有一些默认的序列化方案?例如,我有创建com.twitter.algebird.Moments管道的作业。我希望将管道写入HDFS并使用不同的作业读取它们。例如:我试着写使用:pipe.write(Tsv(outputPath))并阅读使用:classMomentsReadingExample(args:Args)extendsJob(args){valpipe=Tsv(args("input"),('term,'appearanceMoments,'totalMoments)).readval

c# - Avro .Net Serializer 忽略属性

我正在为Avro使用.Net库我有下一节C#课namespaceTest.Avro.Model{[DataContract(Name="SensorDataValue",Namespace="Sensors")]publicclassTestNm{[DataMember(Name="name")]publicstringname{get;set;}[DataMember(Name="surname",IsRequired=true)]//testtoseeifIsRequiredworkspublicstringsurname{get;set;}[DataMember(Name="co

java - 总的 JVM 在 Hadoop 集群上运行? Hadoop 中的 JVM 生命周期

我认为这是一个非常基本的问题,但为了清楚地了解我有几个问题,谁能澄清一下?Hadoop整个集群(第一代和第二代)上运行的JVM总数是多少?例如,如果我有10个节点的集群,那么JVM的最大或最小数量是多少?它们应该为单个节点以及整个10节点集群运行?我们能否在运行时控制JVM上的创建。假设我有更多的JVM,我的数据是否可以快速处理,我可以重用同一个JVM还是我需要在我的作业完成后立即销毁它。(JVM生命周期的任何图表?)JVM如何准确创建并在Hadoop中使用。JVM在hadoop集群中的重要作用是什么(虽然一切都运行在JVM上)。 最佳答案

serialization - 如何将复杂对象存入hadoop Hbase?

我有复杂的对象,其中包含需要存储到Hadoop的集合字段。我不想遍历整个对象树并显式存储每个字段。所以我就想着把复杂的字段序列化,作为一个大块存储起来。而不是在读取对象时将其反序列化。那么最好的方法是什么?我考虑过为此使用某种序列化,但我希望Hadoop有办法处理这种情况。要存储的示例对象的类:classComplexClass{Listcollection;} 最佳答案 HBase只处理字节数组,所以你可以用你认为合适的任何方式序列化你的对象。序列化对象的标准Hadoop方法是实现org.apache.hadoop.io.Writ

serialization - Hadoop中自定义Writable的实现?

我在Hadoop中定义了一个自定义的Writable类,但是Hadoop在运行我的程序时给出了以下错误消息。java.lang.RuntimeException:java.lang.NullPointerExceptionatorg.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:115)atorg.apache.hadoop.io.SortedMapWritable.readFields(SortedMapWritable.java:180)atEquivalenceClsAggValue.rea

lucene - 是否可以在一个 JVM 中运行多个 map 任务?

我想在Hadoop中为我的maptask共享大量内存静态数据(RAMlucene索引)?有没有办法让多个map/reduce任务共享同一个JVM? 最佳答案 作业可以通过指定作业配置mapred.job.reuse.jvm.num.tasks来重用任务JVM。如果该值为1(默认值),则不会重用JVM(即每个JVM1个任务)。如果它是-1,则JVM可以运行的(同一作业的)任务数没有限制。还可以使用API指定大于1的值。 关于lucene-是否可以在一个JVM中运行多个map任务?,我们在S

java - Pig JVM java堆空间错误

我正在尝试运行一个pig脚本,该脚本调用用java编写的用户定义函数。我正在尝试使用264字节的非常小的文件测试此脚本。我最终遇到了Java堆空间错误并且作业失败了。我尝试使用-Xms1024M选项运行该作业,它运行较小的文件,但运行较大的文件失败。即便如此,我的集群也足够强大,不会被这么小的文件绊倒,我想知道我该如何修复这个内存泄漏。有人可以帮忙吗,importjava.util.HashMap;importjava.lang.annotation.Annotation;importjava.lang.reflect.Array;importjava.lang.reflect.Met

java - Hadoop Writable和java.io.serialization有什么联系和区别?

为了实现Writable接口(interface),对象可以在Hadoop中序列化。那么HadoopWritable和java.io.serialization有什么联系和区别呢? 最佳答案 底层存储差异:Java可序列化Serializable不假定存储值的类是已知的,并使用其类标记实例,即。它写入有关对象的元数据,其中包括类名、字段名和类型及其父类(superclass)。ObjectOutputStream和ObjectInputStream对此进行了一些优化,以便在第一个之后为类的实例写入5个字节的句柄。但是带有句柄的对象序

java - JVM 在没有指定帧的情况下崩溃,只有 "timer expired, abort"

我正在Hadoop下运行一个Java作业,它导致JVM崩溃。我怀疑这是由于某些JNI代码造成的(它使用JBLAS和多线程nativeBLAS实现)。然而,虽然我希望崩溃日志为调试提供“有问题的框架”,但日志看起来像:##AfatalerrorhasbeendetectedbytheJavaRuntimeEnvironment:##SIGSEGV(0xb)atpc=0x00007f204dd6fb27,pid=19570,tid=139776470402816##JREversion:6.0_38-b05#JavaVM:JavaHotSpot(TM)64-BitServerVM(20.1