草庐IT

jvm-serializers

全部标签

java - Spark saveAsNewAPIHadoopFile java.io.IOException : Could not find a serializer for the Value class

我正在尝试将java对RDD存储为Hadoop序列文件,如下所示:JavaPairRDDputRdd=...config.set("io.serializations","org.apache.hadoop.io.serializer.JavaSerialization,org.apache.hadoop.io.serializer.WritableSerialization");putRdd.saveAsNewAPIHadoopFile(outputPath,ImmutableBytesWritable.class,Put.class,SequenceFileOutputFormat

Regex SerDe 不支持 serialize() 方法错误

我的表结构如下。CREATETABLEdb.TEST(f1string,f2string,f3string)ROWFORMATSERDE'org.apache.hadoop.hive.serde2.RegexSerDe'WITHSERDEPROPERTIES('input.regex'='(.{2})(.{3})(.{4})')STOREDASINPUTFORMAT'org.apache.hadoop.mapred.TextInputFormat'OUTPUTFORMAT'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputForma

JVM工具之jstat

JVM工具之jstat查询GC统计信息分析JVM工具之jstat查询GC统计信息分析jstat基本使用语法jstat-class加载类统计jstat-compiler编译统计jstat-gc垃圾回收统计jstat-gccapacity垃圾回收器内存空间统计jstat-gccause垃圾回收器分析统计jstat-gcmetacapacity元数据内存空间统计jstat-gcnew新生代垃圾回收统计jstat-gcnewcapacity新生代内存空间统计jstat-gcold老年代垃圾回收统计jstat-gcoldcapacity老年代内存空间统计jstat-gcutil总垃圾回收统计jstat-

r - 初始化 sparkR : JVM is not ready after 10 seconds 时出错

我目前正在使用sparkR测试一个应用程序。这是我的平台和应用程序详细信息:Platform:Windowsserver2008SparkRversion:Rversion3.1.2(2014-10-31)SparkVerion:version1.4.1我做了什么?第一步:将包加载到R环境中library(SparkR)--Working第二步:设置系统环境变量Sys.setenv(SPARK_HOME="C:\hdp\spark-1.4.1-bin-hadoop2.6")--Working.libPaths(c(file.path(Sys.getenv("SPARK_HOME"),"

java - 如果 mapred.job.reuse.jvm.num.tasks 设置为 -1,则 hadoop 集群中每个节点启动了多少个 jvm

我最近看到了hadoop的mapred.job.reuse.jvm.num.tasks属性。默认情况下,它设置为+1,这意味着每个map/reduce任务都会启动一个新的JVM。相反,如果它设置为-1,那么一个jvm可以被无限数量的任务使用。在这种情况下,任务依次执行以使用相同的JVM。因此,当该属性设置为+1时,每个节点启动的JVM数量等于任务数量。没有混淆....但是,我的具体问题是,如果我将mapred.job.reuse.jvm.num.tasks设置为-1,每个节点将启动多少个JVM。每个节点只有一个JVM吗?还是别的? 最佳答案

hadoop - 传递 JVM 选项以指向 Oozie Workflow 中 Pig Action 中的 log4j.properties 文件

在我的Oozie工作流程中,有一个pigAction。运行时,它正在CDH中寻找log4j.properties文件,因为我没有在我的jars中提供该文件。现在,我有了log4j.properties文件,我只需要将它作为Pig操作中的JVM选项传递即可。有什么办法吗? 最佳答案 无法将自定义log4j属性文件传递给Oozie工作流中的Pig操作。PigMain.java文件不允许将以下参数作为参数传递。static{DISALLOWED_PIG_OPTIONS.add("-4");DISALLOWED_PIG_OPTIONS.ad

java - JVM 关闭 Hook 意外退出

我正在使用Java代理对Hadoop任务进行JVM分析,如https://github.com/etsy/statsd-jvm-profiler.分析器注册关闭Hook,将配置文件保存到HDFS。但目前钩子(Hook)在完成之前就被终止了。我确定它们已执行,因为我可以看到Hook的一些输出。 最佳答案 您是否看到任何IOExceptions或文件系统关闭错误。如果是这样,那么禁用hdfs关闭Hook会有所帮助。Hdfs客户端还注册了关闭Hook,以便能够正确关闭hdfs连接。不保证调用关闭Hook的顺序。HdfsHook可能会先于其

java - Datanode 遇到 JVM 暂停问题

我在CDH5.1.2上,我看到这个错误,其中一个数据节点经常暂停。我从日志中看到了这一点。WARNorg.apache.hadoop.util.JvmPauseMonitor:DetectedpauseinJVMorhostmachine(egGC):pauseofapproximately12428msGCpool'ConcurrentMarkSweep'hadcollection(s):count=1time=12707ms知道为什么我会看到这个吗?hdfs容量有时会下降一个节点。 最佳答案 GCpool'ConcurrentM

serialization - 使用 MRUnit 的 java.lang.NullPointerException。自定义 key 序列化错误

我正在尝试使用MRUnit测试一个简单的MapReduce项目。我为mapDriver设置了输入,然后调用mapDriver.runTest()(我也尝试过使用mapDriver.run()但产生了同样的错误)。我编写了一个自定义键,它重载了write(DataOutputout)、readFields(DataInputin)和compareTo(...)方法。调试时,Key使用write(DataOutputout)正确写入其数据。但是,在键的readFields(DataInputin)方法(正确检索之前使用write(DataOutputout)写入的数据)完成后,会抛出以下错

serialization - 在 Hadoop MapReduce 中为 Java 类型设置可写包装器类的原因是什么?

在我看来,可以编写一个org.apache.hadoop.io.serializer.Serialization来直接以包装类将类型序列化为相同的格式来序列化java类型。这样Mappers和Reducers就不必处理包装类。 最佳答案 没有什么可以阻止您更改序列化以使用不同的机制,例如javaSerializable接口(interface)或thrift、ProtocolBuffer等。事实上,Hadoop为JavaSerializable提供了一个(实验性的)序列化实现。对象-只需配置序列化工厂即可使用它。默认序列化机制是Wr