Spark-Hive

mongodb - 无法在 HDP 的 Hive 查询中使用 mongo-hadoop 连接器

我是hadoop的新手。我已经安装了hortonworks沙箱2.1。我正在尝试使用HiveUI执行Hive脚本。我想访问Hive中的mongo集合。我为此使用了以下查询:CREATETABLEindividuals(idINT,nameSTRING,ageINT,citySTRING,hobbySTRING)STOREDBY'com.mongodb.hadoop.hive.MongoStorageHandler'WITHSERDEPROPERTIES('mongo.columns.mapping'='{"id":"_id"}')TBLPROPERTIES('mongo.uri'='m

hadoop - 动态加载文件时的 Spark Streaming 和 Data Locality

我正在运行一个spark流应用程序，它从Kafka接收HDFS上的文件路径，应该打开这些文件并对它们执行某种计算。问题是我无法享受数据局部性的好处，因为执行程序可能在任何节点上运行，而打开文件的执行程序不一定是持有文件的执行程序。有没有一种方法可以按照我介绍的方式动态打开文件，同时保持数据局部性？谢谢，丹尼尔最佳答案我不确定你打开文件的意思，如果你能分享一些代码会很有帮助，但如果你使用的是sc.textFile，那是一个RDD转换。转换被集群管理器安排为任务，因此不一定会从运行DStream转换的执行器节点执行。

Streaming Locality section stackoverflow questions hadoop apache-spark spark-streaming

scala - 如何使用 spark 生成大量随机整数？

我需要很多随机数，每行一个。结果应该是这样的:24324243244234234423423413103131310313...所以我写了这个spark代码(对不起，我是Spark和scala的新手):importutil.Randomimportorg.apache.spark.SparkConfimportorg.apache.spark.SparkContextimportorg.apache.spark.SparkContext._objectRandomIntegerWriter{defmain(args:Array[String]){if(args.length")Syst

scala spark section import apache-spark

8-Hive原理与技术

单选题题目1：按粒度大小的顺序，Hive数据被分为：数据库、数据表、桶和什么选项:A 元祖B 栏C 分区D 行答案：C------------------------------题目2：以下选项中，哪种类型间的转换是被Hive查询语言所支持的选项:A Double—NumberB BigInt—DoubleC Int—BigIntD String--Double答案：D------------------------------题目3：Hive最重视的性能是可测量性、延展性、对于输入格式的宽松匹配性和什么性能选项:A 较低恢复性B 容错性C 快速查询D 可处理大量数据答

原理技术 br xff1a xff hive hadoop 数据仓库

hadoop - Hive 查询性能调优

我是hadoop和hive的新手。您能否建议在cloudera5.2.1上运行的ApacheHive是否有任何性能调整步骤。为了提高Hive查询性能，调整参数是什么配置单元版本:-配置单元0.13.1-cdh5.2.1hive查询:-选择不同的a1.chain_numberchain_number,a1.chain_description链条描述来自staff.organization_hierarchya1;Hive表创建为外部表，选项为“STOREDASTEXTFORMAT”，表属性如下:-更改以下配置单元设置后，我们看到了10秒的改进设置hive.exec.parallel=tr

hadoop Hive section 配置单 code query-optimization

hadoop - 在 HDP (2.2) 平台上使用 Yarn-Client 上的 PySpark 将 Hbase 表读取到 Spark(1.2.0.2.2.0.0-82) RDD 时出现异常 "unread block data"

在HDP(2.2)上使用Yarn-Client(2.6.0)上的PySpark将Hbase(0.98.4.2.2.0.0)表读取到Spark(1.2.0.2.2.0.0-82)RDD时出现奇怪的异常)植物形态:2015-04-1419:05:11,295WARN[task-result-getter-0]scheduler.TaskSetManager(Logging.scala:logWarning(71))-Losttask0.0instage0.0(TID0,hadoop-node05.mathartsys.com):java.lang.IllegalStateException

时出 Yarn-Client client current hadoop apache-spark hbase block hortonworks-data-platform

hadoop - Hive 更新效率(版本 0.14)

Hive如何高效处理未分区列的更新？假设我想为特定的transactionid(未分区)更新一行，Hive将如何在内部处理它。据我了解，Hive将首先搜索它(这很慢)，然后更新存储包含此transactionid的特定行的特定分区(如果有的话)。尽管这将为用户提供更新数据的抽象，但执行大量更新真的有效吗？最佳答案行级更新在hadoop中可能效率不高，因为hadoop是为大数据处理而设计的。但是，从Hive版本0.14开始支持对支持ACID的Hive表进行行级更新。查看Hive教程以获取有关如何实现行级别更新的更多详细信息。htt

hadoop Hive section strong

hadoop - Apache Hive 中的字符集、口音、特殊字符

问题我的Hive表在某些行值中包含特殊字符(法语)时遇到了很多问题。基本上，在查询数据(通过HiveCLI或其他方法)时，所有特殊字符(如字母或其他变音符号上的重音)都会变成纯粹的乱码(各种奇怪的符号)。问题不在于列名，而在于实际的行值和内容。例如，我没有打印“Variat°”或任何其他特殊字符或重音符号，而是得到了这个结果(使用select语句时):Variatï¿½cancel信息与sessionHive表是外部的，来自HDFS中以字符集iso-8859-1编码的CSV文件。更改原始文件编码字符集不会产生更好的结果。我在RedHatEnterprise6上使用Hortonworks

口音 hadoop section strong Hive character-encoding diacritics

mysql - 如何在 UBUNTU 中从 Hive 到 HiveServer2

我遵循了1个指南，并且能够在我的虚拟机ubuntu上设置、hadoop和hive。现在，我想让hiveserver2在ubuntu中启动。我找不到任何指南可以告诉我如何开始使用hiveserver2。我的计划是先弄hiveserver2，然后beeline和mysql，然后在HDFS中连接mysql到tomcat，用eclipse开发一些DB软件。我不期望从任何人那里得到大的答案，只是一些可供研究的引用。谢谢最佳答案您可以试试Cloudera提供的hive文档。ClouderaInstallationGuide

何在 HiveServer2 section strong mysql ubuntu hadoop hive ubuntu-14.04

hadoop - 如何使用 hadoop 自定义输入格式调整 Spark 应用程序

我的spark应用程序使用自定义hadoop输入格式处理文件(平均大小为20MB)，并将结果存储在HDFS中。以下是代码片段。Configurationconf=newConfiguration();JavaPairRDDbaseRDD=ctx.newAPIHadoopFile(input,CustomInputFormat.class,Text.class,Text.class,conf);JavaRDDmapPartitionsRDD=baseRDD.mapPartitions(newFlatMapFunction>,myClass>(){//mylogicgoeshere}//f

自定 hadoop section strong stackoverflow mapreduce apache-spark

87 88 899091 92 93