有的是

scala - 将 spark dataframe 写入现有的 parquet hive 表

想要将spark数据帧写入现有的parquethive表。我可以使用df.write.mode("append").insertIto("myexistinghivetable")来完成，但是如果我检查文件系统，我可以看到spark文件以.c000扩展名登陆.那些文件是什么意思？以及如何将dataframe写入parquethive表。最佳答案我们可以使用df.write.partitionBy("mypartitioncols").format("parquet").mode(SaveMode.Append).saveAsTa

sql - 如何知道我使用的是哪个版本的 Hive？

我是运行Hive查询的新手。我需要通过查询将一个组中的所有行连接到一个逗号分隔的字段中。在stackoverflow上有一个答案表明，根据我使用的Hadoop版本，执行此操作存在限制。所以，我有两个问题。如何知道我使用的是哪个版本？如何根据查询分组将所有行连接成一个逗号分隔的字段？最佳答案广告。1).运行$$HIVE_HOME/bin/hive--versionHive0.14.0Subversionfile:///Users/ghagleitner/Projects/hive-svn/rel-prep/hive-14-rel-

Hive sql section stackoverflow collect hadoop

hadoop - 我如何编辑/更改现有的 sqoop 作业

我如何编辑/更改现有的sqoop作业？找不到与编辑现有sqoop作业相关的任何文档。请协助。最佳答案 sqoop1文件没有编辑这一项作业，但是sqoop2可以修改。如果是sqoop1，你应该bin/sqoopjob--showyour-sync-job记住配置项bin/sqoopjob--deleteyour-sync-job然后sqoopjob--createsqooptest--import--connectjdbc:mysql://10.10.209.224:3306/sqoop--tableuserinfo--userna

hadoop sqoop section code

hadoop - 如何将现有的 Hbase 数据迁移到新集群

我有一个存储超过10TB数据的Hbase集群，现在我必须将这些数据迁移到一个新的集群中，我该怎么做？我知道Hbase备份有完全关闭备份(Distcp)和实时集群备份(Replication、Export和CopyTable)。在我的例子中，我们不能容忍我们的Hbase集群定期完全关闭，而且我知道复制不能复制历史数据，所以这意味着我们只能使用Export或CopyTable吗？我有两个问题:1.我们应该使用Export还是CopyTable或其他？为什么？2.如果我们使用Export或CopyTable，由于集群已经启动，在复制过程中存在编辑遗漏的风险，如何避免？

新集 hadoop section CopyTable strong hbase hdfs

hadoop - 是否可以向配置单元中现有的分区表添加新的列分区

我有一个名为employee_part的分区表。该表按hiredate分区。它具有如下所示的元数据当我尝试向employee_part表添加新的列分区时，我收到一条错误消息ALTERTABLEemployee_partADDPARTITION(gender='M')location'hdfs://user/hive/warehouse/maprpoc.db/employee_part/hiredate=1985-11-21';失败:SemanticException分区规范{gender=M}包含非分区列请澄清一下!提前致谢.. 最佳答案

配置单 hadoop section employee_part employee apache-hive

hadoop - 如何将新数据附加到现有的配置单元表

如何将记录附加到现有的分区Hive表？例如，我有一个名为“ip_country”的现有外部表，数据集是testdata1。如果数据集增长，比如我第二天的数据集是testdata1和testdata2，那么如何将新数据追加，即“testdata2”到“ip_country”配置单元表。最佳答案它可以通过几种方式实现(完全取决于您的要求)如果您不想覆盖分区中的现有记录(我的意思是您没有大的历史数据，比如10年的数据)，那么InsertOverwrite可能适合。INSERTOVERWRITETABLEtablename1[PARTI

配置单 hadoop section blockquote statement hive

hadoop - 无法使用 Spark 从 HiveContext 获取现有的 Hive 表

我正在尝试使用HiveContext从spark获取Hive的数据库或表详细信息。但我无法指向现有的Hive数据库，如下所示:星火版本:2.2.0hive版本:2.3.0在SparkShell中使用以下脚本连接到现有的HiveServer(下面使用的127.0.0.1是我的机器ip地址):scala>valhc=neworg.apache.spark.sql.hive.HiveContext(sc)warning:therewasonedeprecationwarning;re-runwith-deprecationfordetailshc:org.apache.spark.sql.h

取现 HiveContext gt lt root hadoop apache-spark hive spark-dataframe

hadoop - Hive - 如何知道我当前使用的是哪个执行引擎

IwanttoautomatemyhiveETLworkflowinsuchawaythatIneedtoexecutehivejobsonthebasisofexecutionengine(TezorMR)becauseofmemoryconstraints.你能帮忙吗，因为我想在我的整个工作流程之间交叉检查我目前正在处理的执行引擎。提前致谢。最佳答案 Hive执行引擎由hive.execution.engine属性控制。它可以是以下之一:mr(MapReduce，默认)tez(Tez执行，仅适用于Hadoop2)spark(S

hadoop Hive code section execution configuration tez

scala - 使用 sc.textfile 时读取文本文件的是驱动程序还是 worker ？

我想知道sc.textfile是如何在Spark中使用的。我的猜测是驱动程序一次读取文件的一部分，并将读取的文本分发给工作人员进行处理。还是工作人员直接从文件中读取文本而无需司机参与？最佳答案驱动程序查看文件元数据-检查它是否存在，检查目录中有哪些文件(如果是目录)，并检查它们的大小。然后它将任务发送给工作人员，由他们实际读取文件内容。通信本质上是“您从这个偏移量开始读取这个文件的长度。”HDFS将大文件拆分为block，而spark将(通常/经常)根据block拆分任务，因此跳到该偏移量的过程将是高效的。其他文件系统往往以类似

textfile 本文 section 偏移工作人员 scala file hadoop apache-spark io

hadoop - 如何获取现有的 Hive 表分隔符

有没有办法知道存储的配置单元表分隔符？我试过Describeextended但没有用..我搜索了很多，还没有得到答案。最佳答案其他答案是正确的，因为如果不是默认值，您将获得字段定界符。但是，如果分隔符是默认分隔符，我看不到它，它是Control-A字符或ASCII中的“\01” 关于hadoop-如何获取现有的Hive表分隔符，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/3

取现 hadoop section stackoverflow questions hive

113 114 115116117 118 119