$hive_草庐IT

hadoop - 在 Caravel 中的 Hive 表中建模数据

我很好奇是否有一种方法可以在Caravel中对Hive表中的数据进行建模。类似于caravel如何连接到Druid集群并在Druid中的数据上显示UI，有没有办法使用JDBC在Caravel中对Hive中的数据进行建模？最佳答案是的，看看https://github.com/dropbox/PyHive.您可以指定sqlalchemy连接字符串并连接到Hive。关于hadoop-在Caravel中的Hive表中建模数据，我们在StackOverflow上找到一个类似的问题：

database - Hive 中 collect_list(column) 的最大值

我在Hive中使用以下命令。并得到正确的结果。selectacct_id,collect_list(expr_dt)fromexperiences>groupbyacct_id;输出:900["2015-03-31"]707["2015-03-31","2014-12-10"]903["2015-03-31"]-435["2015-03-31"]718["2015-03-31","2014-06-03"]我想获取每个帐户的最大日期。当我尝试执行以下查询时出现错误。selectacct_id,max(collect_list(expr_dt))fromexperiences>groupb

collect_list database 2015 code section hadoop hive

hadoop - 如何从桌面上的 Tableau 连接到 VMware 上的 Hive 服务器？

这是我第一次使用Tableau与Hadoop数据源对话。我的电脑配置:Desktop:Win7+Tableau9.3.5,192.168.2.20Hadoop2.7.2+Hive2.0onCentOS7onVMware(samemachinewithWin7)192.168.112.150我可以从我的桌面ping到VMware节点上的Hive服务器。在桌面上的Tableau中，我将数据源设置为HiverServer2，我在其中提供了凭据。我因以下错误而被拒绝访问:谁能帮我解决一下？非常感谢。最佳答案确保您已安装最新的HiveOD

面上 Tableau section Hive hadoop tableau-api

hadoop - Sqoop 函数 '--map-column-hive' 被忽略

我正在尝试将文件作为parquet导入到配置单元中，而--map-column-hivecolumn_name=timestamp被忽略。column_name列最初是sql中的datetime类型，它在parquet中将其转换为bigint。我想通过sqoop将它转换为时间戳格式，但它不起作用。sqoopimport\--tabletable_name\--drivercom.microsoft.sqlserver.jdbc.SQLServerDriver\--connectjdbc:sqlserver://servername\--usernameuser--passwordpw\

map-column-hive amp section column hive hadoop sqoop

hadoop - Hadoop 中的 Hive 存储，有趣的发现但不明白

这是在hive/hadoop上的一个发现，我有一个名为titles的表，我把它分成两部分，一个是titles20000，另一个是titles20000more，行数看起来不错，但是数据大小看起来不同，请参阅通过在浏览器中键入“主机地址:50070”从名称节点截屏:看block大小，第一个表标题有4个block，而拆分后的子表每个只有一个。我还通过在配置单元中执行show属性以另一种方式检查了dataSize:我快速计算了行数:n=titles:443309n1=titles20000:14781n2=titles20000more:428528n=n1+n2=443309%ofn1=3

有趣 hadoop section titles 20000 hive storage

mysql - Hadoop Hive 查询从单独的表中选择和分组

下面是avg_mileage表和卡车表。我想做的是编译一个查询，它允许我使用avg_mileage.avgmpg选择或创建一个表，并按trucks.model按avg_mileage.avg_mpg从高到低的顺序分组。像这样: 最佳答案这不是简单的join而不是groupby吗？(抱歉不能“评论”，因为我还没有足够的代表。)好的，我想我明白你的问题了。你已经完成了。SELECTtruckid,avg(mpg)avgmpgFROMtruck_mileageGROUPBYtruckid;现在您需要truck.model而不是truck

中选 Hadoop section image avg_mileage mysql sql hive

java - Spark 2.0.0 抛出 AlreadyExistsException(消息 :Database default already exists) when interact with Hive 1. 0.0

我正在尝试使用SparkJava连接到Hive。当我通过Spark在Hive中运行任何查询时，它会返回如下异常:16/10/0609:37:56ERRORmetastore.RetryingHMSHandler:AlreadyExistsException(message:Databasedefaultalreadyexists)我的版本是:星火2.0.0hive1.0.0这是我的全部堆栈:16/10/0609:37:56ERRORmetastore.RetryingHMSHandler:AlreadyExistsException(message:Databasedefaultalr

AlreadyExistsException Database apache spark scala java sql hadoop hive apache-spark-sql

hadoop - 为什么 Hive 中的 Fetch 任务比 Map-only 任务运行得更快？

可以使用hivehive.fetch.task.conversion参数在Hive中启用Fetch任务进行简单查询，而不是Map或MapReduce。请解释为什么Fetch任务比Map运行得快得多，尤其是在做一些简单的工作时(例如select*fromtablelimit10;)？在这种情况下，另外执行什么maptask？在我的例子中，性能差异快了20多倍。这两个任务都应该读取表数据，不是吗？最佳答案 FetchTask直接获取数据，而Mapreduce将调用mapreduce作业hive.fetch.task.conversio

Map-only hadoop section code task optimization hive hive-configuration

hadoop - 导入hive包报错

我是hive的udf新手。我已经下载了“apache-hive-2.1.0-bin”并将我的项目的构建路径配置为apache-hive-2.1.0-bin\lib(所有jar).importorg.apache.hadoop.hive.ql.exec.UDF;importorg.apache.hadoop.io.Text;// 最佳答案在lib路径hadoop-common-2.2.0.jar中添加如下内容它将在中可用http://central.maven.org/maven2/org/apache/hadoop/hadoop-

hadoop hive section code udf

hadoop - ORC 表上的 Hive 选择查询失败

异常(exception):Failedwithexceptionjava.io.IOException:java.io.IOException:Somehowread-1bytestryingtoskip6257morebytestoseektoposition6708,size:1290047有没有人知道如何在云数据处理上修复它？最佳答案看起来您可能正在点击thisknownissue这在某种程度上特定于读取ORC文件。GCS连接器版本1.5.4已修复，本周将在Dataproc中推出(预计将于10月14日本周五全面推出)。与

hadoop Hive section code update-gcs hadoop-partitioning google-cloud-dataproc orc