草庐IT

data-tools-id

全部标签

hadoop - AWS 访问 key ID 在 hadoop fs -cp 命令上失败

我试图运行hadoopfs-cp命令但收到以下错误消息:-cp:AWS访问keyID和secret访问key必须指定为s3URL的用户名或密码(分别),或者通过设置fs.s3.awsAccessKeyId或fs.s3.awsSecretAccessKey属性(分别)我是hadoop和s3的新手,所以任何人都可以就我应该做什么提供建议吗?谢谢! 最佳答案 请refer.去cd${HADOOP_HOME}/conf/hadoop-site.xml并添加/更新fs.s3.awsAccessKeyIdYourAWSACCESSKEYfs.s

hadoop - 动态加载文件时的 Spark Streaming 和 Data Locality

我正在运行一个spark流应用程序,它从Kafka接收HDFS上的文件路径,应该打开这些文件并对它们执行某种计算。问题是我无法享受数据局部性的好处,因为执行程序可能在任何节点上运行,而打开文件的执行程序不一定是持有文件的执行程序。有没有一种方法可以按照我介绍的方式动态打开文件,同时保持数据局部性?谢谢,丹尼尔 最佳答案 我不确定你打开文件的意思,如果你能分享一些代码会很有帮助,但如果你使用的是sc.textFile,那是一个RDD转换。转换被集群管理器安排为任务,因此不一定会从运行DStream转换的执行器节点执行。

hadoop - 在 HDP (2.2) 平台上使用 Yarn-Client 上的 PySpark 将 Hbase 表读取到 Spark(1.2.0.2.2.0.0-82) RDD 时出现异常 "unread block data"

在HDP(2.2)上使用Yarn-Client(2.6.0)上的PySpark将Hbase(0.98.4.2.2.0.0)表读取到Spark(1.2.0.2.2.0.0-82)RDD时出现奇怪的异常)植物形态:2015-04-1419:05:11,295WARN[task-result-getter-0]scheduler.TaskSetManager(Logging.scala:logWarning(71))-Losttask0.0instage0.0(TID0,hadoop-node05.mathartsys.com):java.lang.IllegalStateException

sql - 如何使用配置单元表中的 where 条件查找最后更新的记录 ID

如何统计状态为1的hive表中最新的userId?我们每天都在配置单元中插入增量数据(userId、状态、日期)。配置单元表包含具有不同日期的重复用户标识。所以我尝试了一个查询但得到了错误的结果:selectcount(t1.userID)from(selectuserId,max(date)asdatefromtestgroupbyuserId)t1join(selectuserIdfromtestwherestatus=1)t2ont1.userId=t2.userID;请帮忙。 最佳答案 类似的东西应该可以工作:SELECTT

hadoop - Data locality 概念是否也适用于 Reducers?

我的理解:数据局部性的概念仅适用于Mapper,因为它处理输入文件。Reducers在处理时是否也会使用Datalocality概念?数据局部性:数据局部性是指通过对数据进行计算而不是从其位置请求数据来处理数据所在的位置。在计算数据时,Mappers和Reducers会工作。映射器在计算数据时使用数据局部性。Reducers将输入作为Mappers的输出。假设Mappers输出(中间数据)存储在不同的数据节点。Reducers在计算时是否使用数据局部性? 最佳答案 不,数据局部性概念仅适用于MAPPERS。Reducer是根据par

hadoop - pig : get data from hive table and add partition as column

我有一个分区的Hive表,我想将其加载到Pig脚本中,并且还想将分区添加为列。我该怎么做?Hive中的表定义:CREATEEXTERNALTABLEIFNOTEXISTStransactions(column1string,column2string)PARTITIONEDBY(datestampstring)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'LOCATION'/path';pig脚本:%defaultINPUT_PATH'/path'A=LOAD'$INPUT_PATH'USINGPigStorage('|')AS(column1:cha

SQL获取时间戳差大于30时id的个数

我有以下表格数据结构。我需要找到SESSIONS的数量。SESSIONis:对于一个userid,如果有多行,则检查时间戳。如果时间戳差异小于30,则将其视为一个session。+---------+----------+|userid|timestamp|+---------+----------+|1|10||1|11||1|55||2|65|+---------+----------+在上面的示例中,对于userid1,时间戳10和11被视为单个session。但是(55-11=44)大于30。所以,这是另一个session。因此用户id1和有2个session用户ID2和有1个

csv - 最佳实践 : how to handle data records with changing "schema"/ "columns"

这是一个最佳实践问题。我们的设置是一个hadoop集群,将(日志)数据存储在hdfs中。我们获取csv格式的数据,每天一个文件。在hadoop中对这些文件运行MR作业没问题,只要文件的“架构”(尤其是列数)不变即可。但是,我们面临的问题是,我们要分析的日志记录最终会发生变化,因为可能会添加或删除列。我想知道你们中的一些人是否愿意分享针对此类情况的最佳实践。我们目前能想到的最好的方式是将数据存储为json格式而不是csv。但是,这会增加(至少增加一倍)所需的存储空间。我们还遇到了ApacheAvro和ApacheParquet,并且刚刚开始对此进行研究。欢迎就此问题提出任何想法和意见。

json - org.openx.data.jsonserde.json.JSONObject 无法转换为 org.openx.data.jsonserde.json.JSONArray

我正在尝试从配置单元读取json文件。我正在使用JsonSerdeapi加载json却报错...16moreCausedby:java.lang.ClassCastException:org.openx.data.jsonserde.json.JSONObjectcannotbecasttoorg.openx.data.jsonserde.json.JSONArrayatorg.openx.data.jsonserde.objectinspector.JsonListObjectInspector.getList(JsonListObjectInspector.java:38)ator

hadoop:错误 org.apache.pig.tools.grunt.Grunt - 错误 1000:解析期间出错。遭遇

我在我的gruntshell中使用它:customers=LOAD'hdfs://localhost:9000/pig_data_customers'USINGPigStorage(',')as(id:int,name:chararray,age:int,address:chararray,salary:double);数据在这里:[root@localhostbin]#hdfsdfs-cathdfs://localhost:9000/pig_data_customers1,Ramesh,32,Ahmedabad,2000.002,Khilan,25,Delhi,1500.003,ka