草庐IT

sql - 像普通 sql 一样查询 hbase

我知道Hbase不像普通的SQL。但是有可能像这样查询Hbase吗?selectrow-keyfromTablewherecf:first="ram"andcf:middle="leela"andcf:last="ban";//ram(firstname)leela(middlename)ban(lastname) 最佳答案 有两种方法:使用ApachePhoenix(推荐)。它是HBase的强大SQL包装器。使用ApacheHive。Hive可以使用HiveQL创建“外部表”:CREATEEXTERNALTABLEemployee

hadoop - 除了 pyspark 之外,我还需要使用普通的 python 还是 pyspark 拥有我需要的一切?

我的公司正在改用Hadoop和spark进行机器学习。我知道python在库中非常全面,但是当我们切换到pyspark时,如果我们需要的东西在pyspark中还不可用怎么办?另外,继续使用python可能更容易,因为我已经知道python。所以:我能否在spark中运行我的普通python代码并仍然获得速度等所有好处?人们是只使用pyspark还是同时使用普通python和pyspark?你能把它们混合在一起,一部分用python写,一部分用pyspark写吗? 最佳答案 Pyspark或多或少是一个可以在python之上使用的函数

hadoop - 为什么 Hadoop 作业在云中(使用多节点集群)比在普通 PC 上慢?

我将CloudDataproc用作我的研究的云服务。在此平台(云)上运行Hadoop和spark作业比在较低容量的虚拟机上运行相同的作业要慢一些。我在云上的3节点集群(每个集群有7.5GBRAM和50GB磁盘)上运行我的Hadoop作业需要4分钟49秒,而同样的作业在具有3GBRAM和27GB磁盘的单节点虚拟机(我的电脑)上需要3分钟20秒.为什么在多节点集群的云中结果比在普通pc上慢? 最佳答案 首先:在不知道完整配置和您正在运行的作业类型的情况下不容易回答。可能的原因是:配置错误http://HOSTNAME:8080打开res

hadoop - 使用水槽将普通事件网站流式传输到 HDFS。有效率吗?

我们的组织有一个非常普通的活跃网站,每小时大约有1000次点击。我们计划将这些日志流式传输到HDFS/Hive。现在的问题是HDFS在处理较小文件时的效率。无论我们怎么看,每小时累积的文件大小都不会很大。Hadoop处理较大的文件时效率很高。是否建议将多个较小的文件加载到生产hadoop系统中?如果hdfs上堆满了各种小文件,会有什么影响? 最佳答案 在将文件滚动到新文件之前,您可以尝试添加到文件中的事件数量。如documentation中所述,这是通过HDFS接收器的类似滚动的参数完成的:hdfs.rollInterval30Nu

hadoop - 将普通列转换为配置单元中的分区列

我有一个包含3列的表格。现在我需要将其中一列修改为分区列。有没有可能?如果没有,我们如何向现有表添加分区。我使用了以下语法:创建表t1(enoint,enamestring)行格式分隔字段以'\t'结尾;将本地数据“/....路径/”加载到表t1中;改变表t1添加分区(p1='india');我收到错误.........有人知道如何向现有表添加分区......吗?提前致谢。 最佳答案 我不认为这是直接可能的。Hive将不得不完全重新排列和拆分HDFS中的文件,因为添加分区会强加一个新的目录结构。我建议您只需创建一个具有所需架构和分区

regex - Hive 的正则表达式与普通正则表达式不同吗?

我正在使用Hive分析如下所示的Web日志415503--[10/Jun/1998:00:48:00+0000]"GET/english/images/nav_sitemap_off.gifHTTP/1.1"200416我使用下面的正则表达式将其加载到工作正常的配置单元表([^]*)([^]*)([^]*)(-|\\[[^\\]]*\\])([^\"]*|\"[^\"]*\")(-|[0-9]*)(-|[0-9]*)但是如果我在https://www.regex101.com/中检查这个正则表达式,此正则表达式与我的字符串不匹配。如果我删除block中的一些反斜杠(-|\\[[^\\]

java - HBase表上普通Java程序和MapReduce java程序的区别

我是Hadoop和Hbase的新手。我想知道编写普通java程序和MapReduce程序(用java编写)之间的区别,当两者都对HBase表中的相同数据执行相同的任务时。我知道PigScripts和HiveQueries将转换为MapReduce程序,并将处理HDFS上的数据。甚至HBase也将数据存储在Datanode上。那么普通的java程序是否会转换为mapperredcucer任务并以批处理的方式处理来自datanode的数据,还是线性地处理数据?请告诉我,普通Java程序如何在HBase表上处理数据?提前致谢!!! 最佳答案

hadoop - 普通身份验证失败 : User yarn is not configured for any impersonation. impersonationUser:alluxio mapreduce 中的 root

Causedby:org.apache.thrift.transport.TTransportException:Plainauthenticationfailed:Useryarnisnotconfiguredforanyimpersonation.模拟用户:root当我使用alluxio在本地运行wordcount程序时它工作正常。我也通过了集成测试,但是当我使用alluxio客户端jar运行相同的Hadoop程序时它给我一个错误bin/hadoopjar/usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jarwordcount

hadoop - 将普通的java程序转换为map reduce

我想编写一个Java包装器,它将“兼容程序”转换为mapreduce形式,以供Hadoop框架执行。我知道我的问题很含糊。但这是我打算做的。输入一个java程序。用户将指定的哪一部分程序将由mapreduce执行。这个java程序将是由我的程序输入,它将提供等效的mapreduce程序到hadoop。我被困在几点上。每个类(class)的Mapreduce程序都不同。我要怎么走概括它?从我应该开始的地方开始。解决这个问题的方法应该是什么?欢迎提出任何建议。这将帮助我决定进一步的方向。 最佳答案 一般来说是不可能的,并不是所有的程序都

hadoop - 普通 Hadoop 安装与使用 Ambari 的 Hadoop 安装

我最近从Apache下载了hadoop发行版并启动并运行得非常快;下载hadooptarball,在某个位置和一些配置设置中解压它。这里的事情是我能够看到各种配置文件,如:yarn-site.xml、hdfs-site.xml等;我知道hadoop主页位置。接下来,我使用Ambari安装了hadoop(HDP)。混淆部分来了。似乎Ambarin在/usr/hdp中安装了hdp;然而,普通hadoop与Ambari中的目录结构完全不同。我无法找到配置文件,例如yarn-site.xml等那么谁能帮我揭开这个谜团呢? 最佳答案 所有配置