草庐IT

item_dim_key

全部标签

hadoop - Hdfs 到 s3 Distcp - 访问 key

为了将文件从HDFS复制到S3存储桶,我使用了命令hadoopdistcp-Dfs.s3a.access.key=ACCESS_KEY_HERE\-Dfs.s3a.secret.key=SECRET_KEY_HERE/path/in/hdfss3a:/BUCKETNAME但是访问key和sectetkey在这里是可见的,这是不安全的。有没有什么方法可以从文件中提供凭据。我不想编辑配置文件,这是我遇到的方法之一。 最佳答案 我也遇到过同样的情况,在从matadata实例获得临时凭证之后。(如果您使用的是IAM用户的凭证,请注意这里提到

FileInputFormat,其中文件名是 KEY,文本内容是 VALUE

我想将整个文件用作MAP处理的单个记录,文件名作为键。我已阅读以下帖子:HowtogetFilename/FileContentsaskey/valueinputforMAPwhenrunningaHadoopMapReduceJob?虽然最佳答案的理论是可靠的,但实际上没有提供代码或“操作方法”。这是我自定义的FileInputFormat和相应的RecordReader,它们编译,但不产生任何记录数据。谢谢你的帮助。publicclassCommentsInputextendsFileInputFormat{protectedbooleanisSplitable(FileSyste

证书cer转换.key和.pem文件

1、生成密钥对加密算法RSA证书拥有者信息server条目server.jks密钥库条目密码密钥库密码命令:keytool-genkeypair-keyalgRSA-dname"CN=HanLuo"-aliasserver-keystoreserver.jks-keypass123456-storepass1234562、转换密钥库类型为pkcs12命令:keytool-importkeystore-srckeystoreserver.jks-destkeystoreserver.jks-deststoretypepkcs123、导出到server.cer文件中server条目server.j

hadoop - Sqoop 导入 : composite primary key and textual primary key

堆栈:使用Ambari2.1安装HDP-2.3.2.0-2950源数据库模式在sqlserver上,它包含几个表,这些表的主键为:一个变量复合-两个varchar列或一个varchar+一个int列或两个int列。有一张大table?三行PK中的列一个int+两个varchar列根据Sqoop文档:Sqoopcannotcurrentlysplitonmulti-columnindices.Ifyourtablehasnoindexcolumn,orhasamulti-columnkey,thenyoumustalsomanuallychooseasplittingcolumn.第一个

scala - Spark : grouping rows in array by key

我有一个像这样的spark数据集:keyidval1val2val31aa1a2a32aa4a5a63bb1b2b34bb4b5b65bb7b8b96cc1c2c3我想像这样在列表或数组中按id对所有行进行分组:(a,([1aa1a2a3],[2aa4a5a6])),(b,([3bb1b2b3],[4bb4b5b6],[5bb7b8b9])),(c,([6cc1c2c3]))我已经使用map输出具有正确键的键/值对,但我在构建最终键/数组时遇到了麻烦。有人可以帮忙吗? 最佳答案 这个怎么样:importorg.apache.spar

hadoop - 用于实时分析解决方案的 HBase 架构/ key

我们正在考虑使用HBase进行实时分析。在HBase之前,我们将在我们的日志文件上运行HadoopMapReduce作业并聚合数据,并将细粒度聚合结果存储在HBase中,以便对聚合数据进行实时分析和查询。因此HBase表将具有预先聚合的数据(按日​​期)。我的问题是:如何最好地设计HBase数据库的架构和主键设计,以实现快速而灵活的查询。例如,假设我们将以下行存储在数据库中:timestamp,client_ip,url,referrer,useragent假设我们的map-reduce作业产生三个不同的输出字段,我们希望将每个字段存储在一个单独的“表”(HBase列族)中:日期、操作

java - 哪个key类适合二次排序?

在Hadoop中,您可以使用二次排序机制在将值发送到reducer之前对其进行排序。这在Hadoop中完成的方式是将要排序的值添加到键,然后有一些自定义组和键比较方法Hook到排序系统。因此,您需要有一个主要由真实键和排序依据值组成的键。为了使其执行得足够快,我需要一种创建组合键的方法,该组合键也很容易分解为组和键比较方法所需的单独部分。最聪明的方法是这样做。是否有一个“开箱即用”的Hadoop类可以在这方面帮助我,或者我是否必须为每个map-reduce步骤创建一个单独的关键类?如果key实际上是由多个部分组成的组合(由于分区程序,也需要单独使用),我该怎么做?你们有什么推荐的?附言

hadoop - Hive:当插入分区表时,在大多数行中,hive double url-encode partition key column

我创建了一个分区表:createtablet1(amountdouble)partitionedby(events_partition_keystring)storedaspaquet;向tmp_table添加了一些数据,其中'events_partition_key'列包含以下格式的时间戳(字符串类型):“2018-02-2500:00:00”然后我向分区表中插入一些数据。insertintotablet1partition(events_partition_key)selectamount,events_partition_keyfromtmp_table当从新的分区表t1中选择时

java - 错误的 key 类 : Text is not IntWritable

这看起来像是一个愚蠢的问题,但我在我的hadoopmapreduce代码中没有看到我的类型中的问题如问题中所述,问题在于它期望IntWritable但我在reducer的collector.collect中将一个Text对象传递给它。我的作业配置具有以下映射器输出类:conf.setMapOutputKeyClass(IntWritable.class);conf.setMapOutputValueClass(IntWritable.class);以及以下reducer输出类:conf.setOutputKeyClass(Text.class);conf.setOutputValueC

hadoop - 找不到带有 key dfs.encryption.key.provider.uri 的 uri 以在 CDH 5.4 的 HDFS 加密中创建 key 提供程序

CDH版本:CDH5.4.5问题:当使用HadoopCDH5.4中可用的KMS启用HDFS加密时,将文件放入加密区域时出错。步骤:Hadoop的加密步骤如下:创建key[成功][tester@master~]$hadoopkeycreate'TDEHDP'-providerkms://https@10.1.118.1/key_generator/kms-size128tdegrouphasbeensuccessfullycreatedwithoptionsOptions{cipher='AES/CTR/NoPadding',bitLength=128,description='null