spark-hive

amazon-web-services - 如何使用 Hadoop 2.6 启动 Spark EC2 集群

我正在尝试使用Hadoop2.6在Spark1.6.1上运行SparkEC2集群-这是我尝试过的:./spark-ec2-i~/.ssh/***.pem\--instance-profile-name***\-k***\--region=us-east-1\--instance-type=m3.xlarge\-s2\--copy-aws-credentials\launchtest-cluster不过，这次安装的是Hadoop1.0。所以我在上面的命令中添加了以下选项:--hadoop-major-version=2\但是，我很快意识到，为了正确运行我的应用程序，我需要Hadoop2.

java - JDBC hive 连接字符串中使用的端口号在哪里定义？

我刚刚开始Hadoop和Hive编程，并且编写了一个Java代码，它连接到一个derbyMetastore，并提供正确的输出。我定义的连接字符串是:jdbc:hive2://localhost:10000/default该程序运行良好，并为我提供了所需的输出。但是我想知道这个端口号10000是在哪里定义的，以及如果需要如何更改这个端口号。最佳答案您可以在Hive安装目录下找到所有与Hive相关的配置详细信息。文件名为hive-site.xml就像在我的例子中文件存在于此路径下/usr/hdp/current/hive-serve

java JDBC section code strong hadoop hive derby

hadoop - Hive 中字符串的 CLUSTER BY

我在Hive中有以下查询CREATETABLEbucketed_users(idINT,nameSTRING,FlatNumberINT)CLUSTEREDBY(id)INTO4BUCKETS;是否只能在INT列(也在FlatNumber)上进行聚类，或者我们可以定义自定义函数，该函数将提供划分为聚类桶的逻辑？最佳答案可以在任何列上创建集群/桶，对于非数字列，HIVE将使用HASH(col)%"numberofbuckets"来查找记录的桶。关于hadoop-Hive中字符串的CL

CLUSTER hadoop section strong code hive

hadoop - HIVE 拆分字符串

hive:-我有一列changeContext==>"A345|Fq*A|2017-05-01|2017-05-01"(字符串)，我需要从中提取A345作为另一列。有什么建议吗？附言我已经尝试过regexp_extract(遇到顶点故障)所以任何其他解决方案都是完美的。最佳答案 withtas(select"A345|Fq*A|2017-05-01|2017-05-01"aschangeContext)selectsubstring_index(changeContext,'|',1)option_1,split(changeCo

hadoop HIVE changeContext option section split

java.lang.ClassNotFoundException : org. apache.hive.service.cli.HiveSQLException 异常

为了通过spring应用程序连接配置单元，我在pom.xml中添加了以下依赖项。org.apache.hivehive-jdbc2.1.1org.apache.thriftlibfb3030.9.3org.apache.hivehive-commonorg.apache.hivehive-service-rpc2.1.1Butstilliamfacingthebelowexception::Causedby:java.lang.NoClassDefFoundError:org/apache/hive/service/cli/HiveSQLExceptionatorg.apache.hi

ClassNotFoundException HiveSQLException java org apache maven hadoop hive

hadoop - 具有 6 到 7 个节点硬件配置的分布式 Spark 和 HDFS 集群

我计划旋转我的开发集群来为基础设施监控应用程序进行趋势分析，我计划使用Spark来分析故障趋势，并使用Cassandra来存储传入数据和分析数据。考虑从大约25000台机器/服务器(可能是不同服务器上的一组相同应用程序)收集性能矩阵。我期望每台机器的性能矩阵大小为2MB/秒，我计划将其插入具有时间戳、服务器作为主键和应用程序以及一些重要矩阵作为集群键的Cassandra表中。我将在此存储的信息之上运行Spark作业，以进行性能矩阵故障趋势分析。关于这个问题，考虑到上述情况，我需要多少个节点(机器)以及CPU和内存方面的什么配置来启动我的集群。最佳答案

hadoop Spark section Cassandra planning apache-spark matrix hardware-infrastructure

hadoop - 有关如何从 Hive 查询中设置 Hive 属性的示例

我需要一个快速示例来说明如何使用查询更改配置单元中的属性，例如，我想更改属性“mapred.reduce.tasks”，因此，如何在查询中执行此更改。我正在为HDPCD考试训练自己，考试的目标之一是“从Hive查询中设置Hadoop或Hive配置属性”所以我想这与在Hive控制台中执行类似的操作不同:setmapred.reduce.tasks=2; 最佳答案要更改Hadoop和Hive配置变量，您需要在Hive查询中使用set。所做的更改将仅适用于该查询sessionset-v打印所有Hadoop和Hive配置变量。SETmap

中设 Hive section code hadoop hql hortonworks-data-platform bigdata

scala - Spark 内存限制超出问题

我有一份在spark上运行的工作，它是使用sparkRDD在scalaim中编写的。由于昂贵的分组操作我得到这个错误:容器因超出内存限制而被YARN终止。使用了22.4GB的22GB物理内存。考虑提升spark.yarn.executor.memoryOverhead。我增加了头顶的内存，但我得到了同样的结果。我使用10台r4.xlarge机器。我尝试使用r4.2xlarge甚至r4.4xlarge，但也出现同样的错误。我正在测试的数据是5GB压缩数据(将近50个解压缩数据和近600万条记录)。一些配置:spark.executor.memory:20480Mspark.driver.

scala Spark code section hadoop apache-spark

hadoop - 从日期字段 Hive 获取星期几

需求是从日期字段中获取星期几，日期字段是"MM/dd/yyyy"，需要转换成"yyyy-MM-dd"我认为可以使用Unix_Timestamp完成日期转换但是如何从修改日期字段中获取星期几？在这方面的任何帮助都是有用的最佳答案从Hive2.2.0开始，使用extract(fieldFROMsource)获取星期几。例如:selectextract(dayofweekfrom"2016-10-2005:06:07")结果为5。更多信息请引用日期函数手册:https://cwiki.apache.org/confluence/dis

hadoop Hive section strong https hiveql

json - Hive:json SerDe 文件在外部表中返回 "NULL"

我在亚马逊上有一个DynamoDB，其中包含一堆带有相关数据(用户、位置等)的推文。我通过管道导出了它并得到了一个json文件。将其导出为csv不是一个好主意，因为许多推文在文本字段中包含逗号。作为Hive的新手，我至少知道要加载json文件，我需要某种SerDe。这就是我创建表格的方式:createexternaltabletablename(idstring,created_atstring,followers_countstring,geostring,locationstring,polaritystring,screen_namestring,sentimentstring,

json amp NULL 34 string hadoop hive amazon-dynamodb

79 80 818283 84 85