草庐IT

Hbase-hadoop

全部标签

hadoop - 配置单元 - 为不同的列值插入行

老实说,我不知道如何简单地在标题行中描述问题而不是展示示例。我有一个包含两列的配置单元表:ID和日期IDDate3101-01-20173101-02-20173101-03-201712301-01-201712301-01-2017...在这个表中,我想包括另一列是小时,如下所示IDDateHour3101-01-2017003101-01-2017013101-01-2017023101-01-2017033101-01-201704...3101-01-2017233101-02-2017003101-02-201701...基本上,对于每一行,我想添加一个小时值从00到23的

hadoop - 我不明白这个示例代码中的 jar 和 class-name 是什么

我正在尝试使用sqoop合并hdfs上的增量数据,这是我在googlehttps://developer.ibm.com/hadoop/2017/02/28/typical-scenario-sqoop-incremental-import-merge/上找到的示例代码我不明白那里的jar文件和类名是什么,我应该提供哪个jar文件的路径以及什么类名?有人可以帮我理解吗?谢谢。sqoopmerge--new-data/apps/hive/warehouse/student/part-m-00000--onto/apps/hive/warehouse/student/part-m-0000

hadoop - QueryDatabaseTable Nifi 处理器从 mysql 数据库中获取重复行

QueryDatabaseTable在2节点集群上两次从Mysql表中获取行。当执行设置被配置到所有节点时,抓取过程本身不会被分发。每个节点获取相似的数据,这不是我需要的理想输出。换成主节点也能正常工作,但是一个节点承担了整个获取数据的过程,这就违背了分布式计算的意义。有解决方法吗? 最佳答案 QueryDatabaseTable设计为仅在主节点上运行一个任务,它只执行一次提取,不是分布式解决方案。对于集群中的并行/分布式抓取,您需要以下内容:GenerateTableFetch->RemoteProcessGroup->输入端口-

hadoop - cleanup() 方法如何工作?

我目前是Hadoop的新手。所以我在MapReduce中解决了这段代码,它找出了“每年‘数据工程师’工作最多的国家/地区的部分”(例如,如果格式为(Year,Region,Count(Jobs))是"2016,'XYZ',35"和"2016,'ABC',25"和"2015,'sdf',14",答案将是"2016,'XYZ',35"和"2015,'sdf',14"),但我无法理解reducer中的部分,如下所示:-if(Top5DataEngineer.size()>1)Top5DataEngineer.remove(Top5DataEngineer.firstKey());}//Ign

hadoop - Teradata 快速导出(或 TPT)与 Sqoop 导出

编辑:需要确定哪一个更适合从Teradata导出大量数据-Sqoop、TPT或fexpOP:我已经知道teradata的快速导出和TPT不能用于直接将数据导出到Hadoop。我可以将数据带到本地环境并将其并行移动到hadoop。我想知道哪种工具以最有效的方式从Teradata中提取数据。我必须提取具有巨大数据量(近250亿条记录~15TB大小)的数据集。当然,Teradata中的数据分区良好,我将根据分区和UniquePI拆分我的提取策略。我找不到足够的内容来直接比较Teradata实用程序和Sqoop。哪种工具对Teradata环境中当前运行的作业影响最小,并以最优化的方式提取数据。

hadoop - 将文件列表 (JSON) 转换为数据框

Spark版本:'2.0.0.2.5.0.0-1245'所以,我原来的问题有点改变,但它仍然是同一个问题。我想要做的是加载大量JSON文件并将它们转换为DataFrame-也可能将它们保存为CSV或parquet文件以供进一步处理。每个JSON文件代表最终DataFrame中的一行。importosimportglobHDFS_MOUNT=#...DATA_SET_BASE=#...schema=StructType([StructField("documentId",StringType(),True),StructField("group",StringType(),True),S

hadoop - 为 Hbase 设计复合行键

我正在尝试创建一个具有以下结构的hbase表。**rowkey**|**CF1**(customerid,txtimestamp)|customerid,amount我想使用customerid查询特定时间范围内的记录。我的行键以相反的顺序使用客户ID和交易时间戳。Longcustomerid=Long.valueOf(newStringBuilder(customerid).reverse().toString());byte[]rowKey=Bytes.add(Bytes.toBytes(customerid),Bytes.toBytes(txtimestamp.getTime()

hadoop - Hive 上的 Avro 动态模式更改

我有一些数据采用avro格式v1并存储在分区dt=yyyymmdd下的HDFS中。现在数据在同一个分区下维护了两个版本,v1和v2。为两个不同的版本维护一个hive表是否可行? 最佳答案 Avrodefinesaschemaevolutionprotocol例如,如果v2只是添加了一个具有默认值的字段,然后使用该架构更新表,它可以读取全部旧数据,因为它会简单地返回默认值缺失的地方。如果你破坏了兼容性,你必须创建一个单独的表,然后将两者合并以获得一致的结果集 关于hadoop-Hive上的

hadoop - 将 Hadoop 版本从 2.6.0.3 升级到 2.6.3

我们有HDP版本的hadoop集群-2.6.0.3我们的目标是将版本从2.6.0.3升级到2.6.3(2.6.3是最后一个认证版本)此升级可以通过AmbariGUI并通过单击相关的TAB来完成但我们希望通过CLI或RESTAPI实现完全自动化升级这可能吗?,如果是,我们可以获得有关此RestAPI的信息吗? 最佳答案 Ambari存储库中有python和groovyambari-client实现,但从2.6.x开始,它们不支持处理升级。您可以记录来自浏览器的RESTAPI请求(例如使用Postman拦截器)并从您的脚本中重播它们,或

hadoop - Hive进程内存大小

请您帮我理解Hive上下文中的512mb(以粗体突出显示)是什么?它的内存大小是多少?我在我的hive-site.xml文件中设置了exportHADOOP_HEAPSIZE=4192hadoop@master:~/hive/conf$ps-ef|grep'hive'hadoop558710Feb14?00:05:27/usr/lib/jvm/default-jdk/bin/java-Xmx4192m-Djava.net.preferIPv4Stack=true-Dhadoop.log.dir=/home/hadoop/hadoop-2.7.3/logs-Dhadoop.log.fil