HIVE

scala - 使用 enableHiveSupport 创建临时 SparkSession

我正在研究连接到Hadoop中允许动态数据类型连接的数据。我需要能够连接到HiveThrift服务器A，提取一些数据，然后连接到HiveThrift服务器B并提取更多数据。据我了解，enableHiveSupport需要在初始SparkSession.builder上设置。有没有办法在事后添加/更改节俭连接？我遇到的唯一可能的解决方案是使用newSession():SparkSession但是我不确定这是否是我正在寻找的正确解决方案。我正在使用Spark2.1、Hadoop2.7 最佳答案根据Spark权威指南一书，“创建[Spa

sql - 使用一条插入语句在多个分区中插入数据

我有表A和表B，其中B是A使用名为X的字段的分区表。当我想从A向B插入数据时，通常会执行如下语句:INSERTINTOTABLEBPARTITION(X=x)SELECTFROMAWHEREX=x现在我想要实现的是能够插入一系列X，比方说x1、x2、x3...我怎样才能在一个语句中实现这一点？最佳答案使用动态分区加载:sethive.exec.dynamic.partition=true;sethive.exec.dynamic.partition.mode=nonstrict;INSERTOVERWRITETABLEtable

插入语 sql section code partition hadoop hive hiveql hive-partitions

hadoop - Sqoop 创建配置单元表错误-运行创建表作业时遇到 IOException

我在Centos7机器上运行sqoop，该机器已经安装了hadoop/mapreduce和hive。我从教程中读到，当将数据从RDBMS(在我的例子中是SQLServer)导入HDFS时，我需要运行下一个命令:sqoopimport-Dorg.apache.sqoop.splitter.allow_text_splitter=true--connect'jdbc:sqlserver://hostname;database=databasename'--usernameadmin--passwordadmin123--tabletableA这一步一切正常。下一步是创建一个与RDBMS(在

配置单 IOException code section jackson hadoop hive centos7 sqoop

hadoop - 当我执行 distcp 时，映射器是否会在源或目标中运行

我在hadoop中运行Distcp以将数据从开发集群加载到生产集群。我的问题是资源将从何处获取。它是来自源还是目标？最佳答案 Distcp在它运行的集群上分离出MapReduce作业。您可以在该集群上使用YarnUI来监控作业进度和利用率。假设您正在从Prod集群复制到Dev集群，并且担心资源利用率，那么您实际上可以在Dev集群上运行Distcp作业并让它从Prod集群“拉取”数据。关于hadoop-当我执行distcp时，映射器是否会在源或目标中运行，我们在StackOverflo

中运射器 section Distcp hadoop hive hdfs

hadoop - 如何将参数传递给配置单元 View ，以便 View 根据传递的内容进行更改？

我需要创建一个能够根据配置生成结果的可配置View。我的第一种方法是使用配置单元变量并将变量放在View中，但这不起作用，因为在创建View时，它采用变量的实际值(View是静态的，无法配置)。第二种方法是调用UDF并从中访问变量。我认为这种方法可行，但我不知道如何正确编写它。您能否分享您的想法，也许可以体验如何解决这个问题。最佳答案更新View的可配置性似乎可以通过UDF实现。我将完整地删除之前的答案。为了如上所示，我创建了一个简单的UDF，它输出一个随机double值。packagecom.example.hive.udf;

传递配置单 View code section hadoop hive user-defined-functions

hadoop - 如何知道 Yarn 公平份额调度程序是否发生抢占？

有什么办法可以确定YARN是否触发了抢占机制？可能在YARN资源管理器或日志中？最佳答案如果您的日志级别设置为info，您应该会在YARN资源管理器日志中看到它。//Warnapplicationaboutcontainerstobekilledfor(RMContainercontainer:containers){FSAppAttemptapp=scheduler.getSchedulerApp(container.getApplicationAttemptId());LOG.info("Preemptingcontaine

抢占 hadoop section yarn hive hadoop-yarn

hadoop - 无法将数据从 CSV 文件加载到 HIVE

我在将数据从CSV文件加载到配置单元外部表时得到“无”值。我的CSV文件结构是这样的:creation_month,accts_created7/1/2018,408476/1/2018,672165/1/2018,760094/1/2018,876113/1/2018,996872/1/2018,926311/1/2018,11195112/1/2017,107717'creation_month'和'accts_created'是我的列标题。createexternaltablemonthly_creation(creation_monthDATE,accts_createdINT

hadoop HIVE section creation 2018 null hdfs

hadoop - hortonworks 沙箱配置单元 Metastore 不工作

版本:HortonworksSandbox2.6.5_1onVirtualbox安装后找不到mysqlroot密码，因此重置mysqlroot密码。在密码重置配置单元工作之前，现在配置单元元存储没有启动。拒绝用户'root'@'sandbox-hdp.hortonworks.com'的访问(使用密码:YES)...写入文件['/usr/hdp/current/hive-metastore/conf/conf.server/hive-site.jceks']因为内容不匹配。我将mysqlroot密码更改为“hive”、“bigdata”、“hadoop”，但我仍然无法启动hivemeta

沙箱配置单 code pre section hadoop hive hortonworks-sandbox

scala - 如何有条件地从列中删除前两个字符

我有一些电话记录的以下数据，我想从每条记录中删除前两个值，因为它们是国家代码。我可以使用Scala执行此操作的方法是什么，Spark,或Hive？phone|917799423934||019331224595||8981251522||917271767899|我希望结果是:phone|7799423934||9331224595||8981251522||7271767899|我们如何从该列的每条记录或每行中删除前缀91,01？最佳答案手机大小可以不同，可以使用这样的构造(Scala):df.withColumn("phon

scala 如何 section code phone apache-spark hadoop hive

java - "sql like"apache 配置单元的替代品

我正在寻找一个支持类似于sql查询的分布式数据库的解决方案。更准确地说，它应该有一个JDBC连接器和与sql语法相同或相似的语法。通过谷歌搜索，我发现了HIVEwithhadoop。您还知道哪些其他选择？最佳答案 ClouderaImpala是一个支持类SQL查询并与HiveQL兼容的框架。虽然Hive已经存在一段时间并且面向批处理，但Impala是新的并且适合实时处理。不确定JDBC是否与Impala一起工作。关于java-"sqllike"apache配置单元的替代品，我们在St

配置单替代品 section Impala stackoverflow java jdbc hadoop distributed hive

83 84 858687 88 89