草庐IT

java - "sql like"apache 配置单元的替代品

我正在寻找一个支持类似于sql查询的分布式数据库的解决方案。更准确地说,它应该有一个JDBC连接器和与sql语法相同或相似的语法。通过谷歌搜索,我发现了HIVEwithhadoop。您还知道哪些其他选择? 最佳答案 ClouderaImpala是一个支持类SQL查询并与HiveQL兼容的框架。虽然Hive已经存在一段时间并且面向批处理,但Impala是新的并且适合实时处理。不确定JDBC是否与Impala一起工作。 关于java-"sqllike"apache配置单元的替代品,我们在St

php - 如何在 PHP 上运行 Hadoop 配置单元查询

我使用hadoop在我的服务器上处理大量报告。但这主要是在服务器的CLI上完成的。是否可以在PHP代码中运行相同的查询。?这样我就可以安排它运行。? 最佳答案 从PHP运行Hive查询的标准方法是使用Thrift客户端。详情见https://cwiki.apache.org/confluence/display/Hive/HiveClient=>寻找PHP客户端。但如果您确实需要,您也可以使用PHP来运行CLI命令,尽管解析数据结果将具有挑战性-因此PHPThriftClient是一种更简单的方法。

hadoop - 如何将多个 xls 文件中的 xls 数据加载到配置单元中?

我正在学习使用Hadoop执行大数据相关操作。我需要对拆分为8个xls文件的数据集集合执行一些查询。每个xls文件都有多个工作表,查询只涉及其中一个工作表。数据集可以在这里下载:http://www.census.gov/hhes/www/hlthins/data/utilization/tables.html我没有为我的任务使用任何商业发行版的hadoop,只是在VmWare中设置了一个主虚拟机和一个从虚拟机,其中包含Hadoop、Hive和Pig。我是Hadoop和大数据的新手,所以如果有人能指导我如何进一步进行,我将不胜感激。如果您需要有关查询的信息或其他任何信息,请告诉我。谢谢

hadoop - 如何从 EXPLAIN 中为不同的配置单元阶段设置资源?

有没有办法根据EXPLAIN查询的阶段提供资源。 最佳答案 据我所知,您唯一可以设置的是:R的数量/精确计数setmapred.reduce.tasks=**(只要是makessense)R数量/最大计数sethive.exec.reducers.max=**+计算实际数量的提示sethive.exec.reducers.bytes.per.reducer=*****每个M容器的资源(使用MR时)/setmapreduce.map.memory.mb=**+setmapreduce.map.java.opts=-XMX**每个R容器

date - 有两个不同的字符串代表两个不同的配置单元表中的日期,我想用它们来加入

所以我在Hadoop集群中的Hive中有两个外部表。一个表有一个(日期字符串)列,格式为'2019-05-2411:16:31.0'另一个有(dateSTRING)列,格式为'23/May/2019:22:15:04',它们都是字符串。我需要将它们转换为相同类型的日期格式并使用它们来连接这两个表。您将如何解决这个问题并在Hive中解决所有问题?可能吗?我是Hadoop的菜鸟,对Hive的可能性还不是很了解。Ps:我的hive版本不支持!hive--version命令来检查我正在使用的版本,所以我不太确定如何理解我正在使用的版本。不是我的集群,我也不是根用户。

java - 无法通过 jdbc 连接到配置单元

我使用gradle来运行我的程序。示例代码引用https://github.com/onefoursix/Cloudera-Impala-JDBC-Example.而且我可以从repo中运行示例而不会失败。//ApplythejavaplugintoaddsupportforJavaapplyplugin:'java'applyplugin:'application'mainClassName="com.my.impala.fetcher.Fetcher"//Inthissectionyoudeclarewheretofindthedependenciesofyourprojectre

sql - 比较两个配置单元表之间的计数

我正在尝试对两个表进行计数比较。由于减号运算符在hive中不起作用,因此它没有发生。您能否提供一些简单的方法来对两个表进行计数比较。select'CallDetail-HiveT1toHDFSStaging-DataCompare',casewhencnt>0then'Fail'Else'Pass'endfrom(selectcount(*)cntfrom((selectcount(*)fromstudents1s1)-(selectcount(*)fromstudents2s2))astbl1)astbl2;抛出错误:FAILED:ParseExceptionline81:0cann

hadoop - 配置单元 : Drop database

我需要在配置单元中删除一个大数据库,但我找不到选项here跳过垃圾,如purge删除表。当为垃圾应用空间配额时,这可能会造成麻烦!任何仅使用配置单元DDL命令的建议?要清楚:我做什么:Dropdatabasecascade;我在寻找什么或类似的东西:Dropdatabasecascadepurge; 最佳答案 配置单元默认.xmlhive.warehouse.data.skipTrashtrueSetthistotrueifyoudonotwanttabledatatobemovedtotrashwhiledroppingtable

hadoop - 如何在将数据加载到配置单元时合并数据?

我正在尝试使用hive来分析我们的日志,我有一个问题。假设我们有这样的数据:111乙1C1乙1我怎样才能在hive表中做到这一点(顺序并不重要,我只是想合并它们)?1乙1C1没有用awk/sed或类似的东西预处理它?谢谢! 最佳答案 第1步:为输入数据集创建一个Hive表。如果不存在则创建表table1(fld1string,fld2string)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t';(我假设字段分隔符是\t,你可以用实际分隔符替换它)第2步:运行下面得到你要找的合并数据createtab

java - 生成唯一的客户 ID/在配置单元中插入唯一的行

我需要根据客户名称和地址将唯一行插入到配置单元表中。我们是否可以使用客户名称和地址生成独特的值(value)?我希望生成如下所示的unique_value列并选择具有不同unique_value的行。例如像下面我想生成unique_value列{customer_name}{address}{unique_value}奥马尔街1111瑞安斯特里222奥马尔街1111或任何其他方法也很受欢迎! 最佳答案 您可以尝试两件事。您可以尝试使用UUID,但这会为每一行生成一个唯一的ID。像这样的事情会做:selectreflect("java