草庐IT

hadoop - 在 Caravel 中的 Hive 表中建模数据

我很好奇是否有一种方法可以在Caravel中对Hive表中的数据进行建模。类似于caravel如何连接到Druid集群并在Druid中的数据上显示UI,有没有办法使用JDBC在Caravel中对Hive中的数据进行建模? 最佳答案 是的,看看https://github.com/dropbox/PyHive.您可以指定sqlalchemy连接字符串并连接到Hive。 关于hadoop-在Caravel中的Hive表中建模数据,我们在StackOverflow上找到一个类似的问题:

database - Hive 中 collect_list(column) 的最大值

我在Hive中使用以下命令。并得到正确的结果。selectacct_id,collect_list(expr_dt)fromexperiences>groupbyacct_id;输出:900["2015-03-31"]707["2015-03-31","2014-12-10"]903["2015-03-31"]-435["2015-03-31"]718["2015-03-31","2014-06-03"]我想获取每个帐户的最大日期。当我尝试执行以下查询时出现错误。selectacct_id,max(collect_list(expr_dt))fromexperiences>groupb

hadoop - 如何从桌面上的 Tableau 连接到 VMware 上的 Hive 服务器?

这是我第一次使用Tableau与Hadoop数据源对话。我的电脑配置:Desktop:Win7+Tableau9.3.5,192.168.2.20Hadoop2.7.2+Hive2.0onCentOS7onVMware(samemachinewithWin7)192.168.112.150我可以从我的桌面ping到VMware节点上的Hive服务器。在桌面上的Tableau中,我将数据源设置为HiverServer2,我在其中提供了凭据。我因以下错误而被拒绝访问:谁能帮我解决一下?非常感谢。 最佳答案 确保您已安装最新的HiveOD

hadoop - Sqoop 函数 '--map-column-hive' 被忽略

我正在尝试将文件作为parquet导入到配置单元中,而--map-column-hivecolumn_name=timestamp被忽略。column_name列最初是sql中的datetime类型,它在parquet中将其转换为bigint。我想通过sqoop将它转换为时间戳格式,但它不起作用。sqoopimport\--tabletable_name\--drivercom.microsoft.sqlserver.jdbc.SQLServerDriver\--connectjdbc:sqlserver://servername\--usernameuser--passwordpw\

hadoop - Hadoop 中的 Hive 存储,有趣的发现但不明白

这是在hive/hadoop上的一个发现,我有一个名为titles的表,我把它分成两部分,一个是titles20000,另一个是titles20000more,行数看起来不错,但是数据大小看起来不同,请参阅通过在浏览器中键入“主机地址:50070”从名称节点截屏:看block大小,第一个表标题有4个block,而拆分后的子表每个只有一个。我还通过在配置单元中执行show属性以另一种方式检查了dataSize:我快速计算了行数:n=titles:443309n1=titles20000:14781n2=titles20000more:428528n=n1+n2=443309%ofn1=3

mysql - Hadoop Hive 查询从单独的表中选择和分组

下面是avg_mileage表和卡车表。我想做的是编译一个查询,它允许我使用avg_mileage.avgmpg选择或创建一个表,并按trucks.model按avg_mileage.avg_mpg从高到低的顺序分组。像这样: 最佳答案 这不是简单的join而不是groupby吗?(抱歉不能“评论”,因为我还没有足够的代表。)好的,我想我明白你的问题了。你已经完成了。SELECTtruckid,avg(mpg)avgmpgFROMtruck_mileageGROUPBYtruckid;现在您需要truck.model而不是truck

java - Spark 2.0.0 抛出 AlreadyExistsException(消息 :Database default already exists) when interact with Hive 1. 0.0

我正在尝试使用SparkJava连接到Hive。当我通过Spark在Hive中运行任何查询时,它会返回如下异常:16/10/0609:37:56ERRORmetastore.RetryingHMSHandler:AlreadyExistsException(message:Databasedefaultalreadyexists)我的版本是:星火2.0.0hive1.0.0这是我的全部堆栈:16/10/0609:37:56ERRORmetastore.RetryingHMSHandler:AlreadyExistsException(message:Databasedefaultalr

hadoop - 为什么 Hive 中的 Fetch 任务比 Map-only 任务运行得更快?

可以使用hivehive.fetch.task.conversion参数在Hive中启用Fetch任务进行简单查询,而不是Map或MapReduce。请解释为什么Fetch任务比Map运行得快得多,尤其是在做一些简单的工作时(例如select*fromtablelimit10;)?在这种情况下,另外执行什么maptask?在我的例子中,性能差异快了20多倍。这两个任务都应该读取表数据,不是吗? 最佳答案 FetchTask直接获取数据,而Mapreduce将调用mapreduce作业hive.fetch.task.conversio

hadoop - 导入hive包报错

我是hive的udf新手。我已经下载了“apache-hive-2.1.0-bin”并将我的项目的构建路径配置为apache-hive-2.1.0-bin\lib(所有jar).importorg.apache.hadoop.hive.ql.exec.UDF;importorg.apache.hadoop.io.Text;// 最佳答案 在lib路径hadoop-common-2.2.0.jar中添加如下内容它将在中可用http://central.maven.org/maven2/org/apache/hadoop/hadoop-

hadoop - ORC 表上的 Hive 选择查询失败

异常(exception):Failedwithexceptionjava.io.IOException:java.io.IOException:Somehowread-1bytestryingtoskip6257morebytestoseektoposition6708,size:1290047有没有人知道如何在云数据处理上修复它? 最佳答案 看起来您可能正在点击thisknownissue这在某种程度上特定于读取ORC文件。GCS连接器版本1.5.4已修复,本周将在Dataproc中推出(预计将于10月14日本周五全面推出)。与