草庐IT

scala - 读取保存在 HBase 列中的 AVRO 结构

我是Spark和HBase的新手。我正在处理HBase表的备份。这些备份位于S3存储桶中。我正在使用newAPIHadoopFile通过spark(scala)阅读它们,如下所示:conf.set("io.serializations","org.apache.hadoop.io.serializer.WritableSerialization,org.apache.hadoop.hbase.mapreduce.ResultSerialization")valdata=sc.newAPIHadoopFile(path,classOf[SequenceFileInputFormat[Im

hadoop - Sqoop snappy 压缩不起作用

我有以下sqoop脚本,它应该以parquet格式获取数据并使用snappy压缩。sqoopimport\--hive-drop-import-delims\--fields-terminated-by'\001'\--connect''\--query'select*from.where$CONDITIONS'\--username\--password\--split-by''\-m=4\--input-null-string''\--input-null-non-string''\--inline-lob-limit0\--target-dir\--compression-cod

hadoop - 在S3上创建Hive外部表将引发 “org.apache.hadoop.fs.s3a.S3AFileSystem not found”异常

我在本地计算机上使用beeline在DDL下运行,并引发异常。DDL是CREATETABLE`report_landing_pages`(`google_account_id`stringCOMMENT'fromdeserializer',`ga_view_id`stringCOMMENT'fromdeserializer',`path`stringCOMMENT'fromdeserializer',`users`stringCOMMENT'fromdeserializer',`page_views`stringCOMMENT'fromdeserializer',`event_valu

运行 h2o、rsparkling、sparklyr

我一直在尝试使用h2o(rsparkling)运行Spark2.2,master=yarn但是当我运行h2o_context(sc)我获取异常:Error:java.lang.NoSuchMethodError:org.apache.spark.util.Utils$.getUserJars(Lorg/apache/spark/SparkConf;Z)Lscala/collection/Seq;atorg.apache.spark.repl.h2o.H2OInterpreter.createSettings(H2OInterpreter.scala:66)atorg.apache.sp

java - 类路径问题 - getJNIEnv 失败

我已经成功编译了基于JNI的Apachelibhdfs(C++)在我的Hadoop沙盒/CentOS上——没有编译错误或警告:g++test.cpp-otest-I/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.151.x86_64/include/-I/usr/hdp/2.6.3.0-235/usr/include/-I/usr/hdp/2.6.3.0-235/hadoop/bin-I/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.151-1.b12.el6_9.x86_64/include/-I/usr/lib/jvm/jav

hadoop - Hive 中的时间戳分区

我正在尝试在配置单元中创建基于时间戳的分区。但是配置单元正在创建基于数据的分区。下面是我的代码。有人可以帮忙吗?cattest1.shdat=`date+'%Y%m%d%H:%m:%S'`hive-fload.hql-hiveconffile_load_timestamp=$dat;catload.hqlINSERTOVERWRITEtableperm.testpartition(file_load_timestamp='${hiveconf:dat}')SELECTa,bFROMwork.temp;dt=20180102/=HDFS路径是这样创建的。dt=20180102103455

hadoop - 如何获得自定义 Nagios 插件以与 NRPE 一起使用?

我有一个无法访问互联网的系统,我想在其中安装一些Nagios监控服务/插件。我安装了NRPE(NagiosRemotePluginExecutor),我可以看到里面定义的命令,比如check_users、check_load、check_zombie_procs等。command[check_users]=/usr/lib/nagios/plugins/check_users-w5-c10command[check_load]=/usr/lib/nagios/plugins/check_load-w15,10,5-c30,25,20...我可以像这样运行命令:/usr/local/na

csv - 指向带有嵌入双引号的 CSV 文件的 Hive 外部表

我正在尝试创建一个指向CSV文件的外部Hive表。我的CSV文件有一个列(col2),可以将双引号和逗号作为列值的一部分。每列数据:Col1:150Col2:BATWING,ABC"D"TESTDATACol3:300CSV中的行:150,"BATWING,ABC""D""TESTDATA",300创建表DDL:CREATEEXTERNALTABLEtest(col1INT,col2STRING,col3INT)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','ESCAPEDBY'"'LOCATION's3://test-folder/test-file.c

hadoop - Spark YARN 应用程序中 Kerberos 中的 HDFS 写入问题

我有一个spark应用程序,它从Kafka读取数据并将数据写入HDFS。我的应用程序在几分钟内工作正常,但一段时间后它开始出现以下错误并失败。2018-01-0217:59:20LeaseRenewer:username@nameservicename[WARN]UserGroupInformation-PriviledgedActionExceptionas:username@REALM_NAME(auth:KERBEROS)cause:javax.security.sasl.SaslException:GSSinitiatefailed[CausedbyGSSException:N

hadoop - 如何为 Titan MR 作业设置 yarn 作业队列

Titan版本是1.0.0无论我尝试过什么,所有yarn应用程序最终都在默认队列中。这些是我试过的东西:1)在titan-hbase-solr.properties中设置属性(以下均无效)mapred.job.queue.name=myqueuemapreduce.job.queue.name=myqueuemapred.mapreduce.job.queue.name=myqueue2)在gremlinshell中设置属性gremlin>graph=TitanFactory.open("/usr/iop/4.2.5.0-0000/titan/conf/titan-hbase-solr