草庐IT

CDH 集群 使用 JindoFS SDK 访问 OSS

CDH集群使用JindoFSSDK访问OSSCDH(Cloudera'sDistribution,includingApacheHadoop)是众多Hadoop发行版本中的一种,本文以CDH5.16.2为例介绍如何配置CDH支持使用JindoFSSDK访问OSS。步骤1.安装jar包下载最新的jar包jindofs-sdk-x.x.x.jar(下载页面),将sdk包安装到hadoop的classpath下。cp./jindofs-sdk-*.jar/opt/cloudera/parcels/CDH/lib/hadoop/lib/jindofs-sdk.jar2.配置JindoFSOSS实现类通

CDH 集群 使用 JindoFS SDK 访问 OSS

CDH集群使用JindoFSSDK访问OSSCDH(Cloudera'sDistribution,includingApacheHadoop)是众多Hadoop发行版本中的一种,本文以CDH5.16.2为例介绍如何配置CDH支持使用JindoFSSDK访问OSS。步骤1.安装jar包下载最新的jar包jindofs-sdk-x.x.x.jar(下载页面),将sdk包安装到hadoop的classpath下。cp./jindofs-sdk-*.jar/opt/cloudera/parcels/CDH/lib/hadoop/lib/jindofs-sdk.jar2.配置JindoFSOSS实现类通

cdh4.6.0升级测试2-distribute cache bug fix

distributecachepurge阻塞task的bug测试。cdh4.2.0:测试方法:local.cache.size=650因为cachedirsize和count是存在内存中的HashMap中的,把local.cache.size值设置的足够小,在每次job运行时都会触发deletedistributecache的操作。又因为是private的,是同步删除,会造成task阻塞。使用dd来构造1M个的小文件至某一个cachedir目录。观察阻塞时间,bug可以重现。#!/bin/bashdir=`foriin{1..11};dofind/home/xxx/hard_disk/${i}

cdh4.6.0升级测试2-distribute cache bug fix

distributecachepurge阻塞task的bug测试。cdh4.2.0:测试方法:local.cache.size=650因为cachedirsize和count是存在内存中的HashMap中的,把local.cache.size值设置的足够小,在每次job运行时都会触发deletedistributecache的操作。又因为是private的,是同步删除,会造成task阻塞。使用dd来构造1M个的小文件至某一个cachedir目录。观察阻塞时间,bug可以重现。#!/bin/bashdir=`foriin{1..11};dofind/home/xxx/hard_disk/${i}

CDH6.3.2 集成 openldap 配置

CDH6.3.2集成openldap配置标签(空格分隔):大数据运维专栏一:hive集成openldap1.1CDH6.3.2的主机节点安装openldap的客户端openldap服务端已经配置完成,不会看flyfish博文https://blog.51cto.com/flyfish225/4562546在此不做部署:安装openldap-client装包:yum-yinstallopenldap-clientssssdauthconfignss-pam-ldapd编辑配置文件:vim/etc/openldap/ldap.conf---BASEdc=flyfish,dc=comURIldap:

CDH6.3.2 集成 openldap 配置

CDH6.3.2集成openldap配置标签(空格分隔):大数据运维专栏一:hive集成openldap1.1CDH6.3.2的主机节点安装openldap的客户端openldap服务端已经配置完成,不会看flyfish博文https://blog.51cto.com/flyfish225/4562546在此不做部署:安装openldap-client装包:yum-yinstallopenldap-clientssssdauthconfignss-pam-ldapd编辑配置文件:vim/etc/openldap/ldap.conf---BASEdc=flyfish,dc=comURIldap:

Atlas2.1.0集成CDH6.3.0部署

Atlas是什么?Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。ApacheAtlas为组织提供了开放的元数据管理和治理功能,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家,分析师和数据治理团队提供围绕这些数据资产的协作功能。如果没有Atlas大数据表依赖问题不好解决,元数据管理需要自行开发,如:hive血缘依赖图对于表依赖问题,没有一个可以查询的工具,不方便错误定位,即业务sql开发官网:http://atlas.apache.org表与表之间的血缘依赖字段与字段之间的血缘依赖1Atlas

Atlas2.1.0集成CDH6.3.0部署

Atlas是什么?Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。ApacheAtlas为组织提供了开放的元数据管理和治理功能,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家,分析师和数据治理团队提供围绕这些数据资产的协作功能。如果没有Atlas大数据表依赖问题不好解决,元数据管理需要自行开发,如:hive血缘依赖图对于表依赖问题,没有一个可以查询的工具,不方便错误定位,即业务sql开发官网:http://atlas.apache.org表与表之间的血缘依赖字段与字段之间的血缘依赖1Atlas