hiveHadoop_草庐IT

上个月通过email，帮朋友的朋友解决了一个Cloudera的Spark-SQL无法访问HBase做数据分析的问题，记录一下。首先，对方已经做好了Hive访问HBase，所以spark-sql原则上可以通过调用Hive的元数据来访问Hbase。但是执行极慢，而且日志无报错。中间都是邮件沟通，先问了几个问题，是否启用了Kerberos，是否Hive访问Hbase正常，HBaseshell访问数据是否正常等等，回答说没有用Kerberos，Hive访问Hbase正常，spark-sql读取Hive元数据也正常，Hbaseshell也正常，就是spark-sql跑不了。其次，对方有两套环境，实验室环

Hadoop 运维 nbsp section spark hadoop hbase hiveHadoop 大数据

Hadoop运维记录系列(十一)

记录一些Hive的优化点，和能够提升的效率差异。Hive是目前应用最多最广的SQLonHadoop工具，近期很多专业的大数据公司推出了很多新的，基于列式或者内存热数据的SQL工具，像Impala，Tez，Spark等等，但是Hive仍然是目前使用率最高和普及面最广的SQLonHadoop的工具。在以前淘宝罗李的报告中，淘宝90%的业务跑在Hive上面。暴风影音的比例更高一些，大概95%以上都是跑在Hive上面。尽管很多人对Hive有看法，效率低，查询慢，bug多。但是并不可否认hive是一个开创性的工具，提供了更多的想象空间。而且，在生产集群上的数据查询程序的开发效率，Hive要远远高于自己写

Hadoop 运维 nbsp valign width 系统性能调优 hadoop hiveHadoop 大数据

Hadoop运维记录系列(十七)

上个月通过email，帮朋友的朋友解决了一个Cloudera的Spark-SQL无法访问HBase做数据分析的问题，记录一下。首先，对方已经做好了Hive访问HBase，所以spark-sql原则上可以通过调用Hive的元数据来访问Hbase。但是执行极慢，而且日志无报错。中间都是邮件沟通，先问了几个问题，是否启用了Kerberos，是否Hive访问Hbase正常，HBaseshell访问数据是否正常等等，回答说没有用Kerberos，Hive访问Hbase正常，spark-sql读取Hive元数据也正常，Hbaseshell也正常，就是spark-sql跑不了。其次，对方有两套环境，实验室环

Hadoop 运维 nbsp section spark hadoop hbase hiveHadoop 大数据

Hadoop运维记录系列(十一)

记录一些Hive的优化点，和能够提升的效率差异。Hive是目前应用最多最广的SQLonHadoop工具，近期很多专业的大数据公司推出了很多新的，基于列式或者内存热数据的SQL工具，像Impala，Tez，Spark等等，但是Hive仍然是目前使用率最高和普及面最广的SQLonHadoop的工具。在以前淘宝罗李的报告中，淘宝90%的业务跑在Hive上面。暴风影音的比例更高一些，大概95%以上都是跑在Hive上面。尽管很多人对Hive有看法，效率低，查询慢，bug多。但是并不可否认hive是一个开创性的工具，提供了更多的想象空间。而且，在生产集群上的数据查询程序的开发效率，Hive要远远高于自己写

Hadoop 运维 nbsp valign width 系统性能调优 hadoop hiveHadoop 大数据

终于有人把不同标签的加工内容与落库讲明白了丨DTVision分析洞察篇

讲明 DTVision 标签的 x-oss-process 数据 sql hiveHadoop 大数据

终于有人把不同标签的加工内容与落库讲明白了丨DTVision分析洞察篇

上一篇文章详细给大家介绍了标签的设计与加工，在标签生命周期流程中，标签体系设计完成后，便进入标签加工与上线运行阶段，一般来说数据开发团队会主导此过程，但我们需要关心以下几个问题：・标签如何快速创建和实现标签逻辑的在线化管理・业务人员怎么参与到标签建设流程中・百万级别的标签如何落表一、加工方式：传统VS在线当企业无标签系统时，一般由数据开发在离线数仓中完成标签的加工和运行，运营或市场同学需要某个标签需要通过产品经理向数据开发提需求，这个过程存在很多问题：・标签资产不可见：标签是存在于表里的字段，业务人员不清楚现在有多少标签；标签的加工逻辑与业务逻辑是否一致只能查看SQL代码；新上线的标签只有部分

讲明 DTVision 标签的 x-oss-process 数据 sql hiveHadoop 大数据

终于有人把不同标签的加工内容与落库讲明白了丨DTVision分析洞察篇

上一篇文章详细给大家介绍了标签的设计与加工，在标签生命周期流程中，标签体系设计完成后，便进入标签加工与上线运行阶段，一般来说数据开发团队会主导此过程，但我们需要关心以下几个问题：・标签如何快速创建和实现标签逻辑的在线化管理・业务人员怎么参与到标签建设流程中・百万级别的标签如何落表一、加工方式：传统VS在线当企业无标签系统时，一般由数据开发在离线数仓中完成标签的加工和运行，运营或市场同学需要某个标签需要通过产品经理向数据开发提需求，这个过程存在很多问题：・标签资产不可见：标签是存在于表里的字段，业务人员不清楚现在有多少标签；标签的加工逻辑与业务逻辑是否一致只能查看SQL代码；新上线的标签只有部分

讲明 DTVision 标签的 x-oss-process 数据 sql hiveHadoop 大数据