草庐IT

hadoop - 配置单元执行错误

我是avro和hive的新手,在学习它的过程中我有些困惑。使用tblproperties('avro.schema.url'='somewhereinHDFS/categories.avsc')。如果我像这样运行这个create命令createtablecategories(idInt,dep_IdInt,nameString)storedasavrofiletblproperties('avro.schema.url'='hdfs://quickstart.cloudera/user/cloudera/data/retail_avro_avsc/categories.avsc')但为

sql - 在配置单元 SQL 中聚合点击流数据(组中的第一个值)CTE SQL

我正在使用ApacheHiveSQL分析来自不同网站的网站数据,我想找出客户旅程中涉及的域。点击流数据具有以下结构:id1domain------111111131112343535676667为了以正确的方式分析数据,我想将数据转换成这种结构:id1domain------111311123435676667这怎么能在HIVESql中完成?我必须找出哪个接触点涉及哪个序列/顺序,并消除域之间的冗余点击。最终这个洞查询应该导致这样的表:1:1>3>1>23:4>56:7>6>7我不会说这是一个特定于hive的问题! 最佳答案 在sq

hadoop - 配置单元:dfs copyToLocal 给出 "org.apache.hive.service.cli.HiveSQLException: Error while processing statement: null"

我正在尝试从.hql文件执行“copyToLocal”,如下所示:dfs-copyToLocalhdfs://nameservice1/HDFS_FOLDER1/HDFS_FOLDER2/file_name.dat/LOCAL_FOLDER1/LOCAL_FOLDER2/;但是我得到了下面提到的异常:Error:Errorwhileprocessingstatement:null(state=,code=1)org.apache.hive.service.cli.HiveSQLException:Errorwhileprocessingstatement:nullatorg.apach

hadoop - 无法使用 hdfs 找到配置单元表目录

我在使用配置单元表时遇到了困难。使用配置单元表时。使用DESCRIBEFORMATTEDtbl_name时,我可以看到位置:hdfs路径。运行查询时,有一些记录返回。当我运行createtablenew_tableasselect*fromtbl_name时。可以创建表,但不能创建数据。在使用hdfsdfs-ls/table目录检查hdfs的地方,它返回“没有这样的文件或目录”。有人知道吗?提前致谢。 最佳答案 您可以看到$HIVE_HOME/conf目录中有hive-default.xml和/或hive-site.xml具有hiv

sql - 配置单元查询 : Selecting column over a partition based on a median of a different column

我无法完成查询建模,因此需要帮助。我的数据是:idnameschoolheight1AS1102BS1123CS1144DS2155ES2166FS217我想选择每个学校的姓名和中位数高度的姓名。预期输出:idnameschoolmyval1AS1B2BS1B3CS1B4DS2E5ES2E6FS2E在这里,B的高度是S1学校的中位数,E是S2的中位数。我知道我们可以使用百分位数获得中位数。但我无法弄清楚如何选择每个分区的值。 最佳答案 下面的查询将起作用:-selecttemp1.id,temp1.name,temp1.school

hadoop - 尝试更改配置单元中的列类型,运行 DDL,但抛出错误“

尝试更改hive中的cloumn类型,运行DDL,但抛出错误运行以下DDL:ALTERTABLEINV.HTL_RATE_PLANCHANGERATE_PLAN_RSTRCT_STRT_DTRATE_PLAN_RSTRCT_STRT_DTDATECOMMENT'Advancebookingalternatedaysrestrictionruleappliedtoaratecategory.Thisruledictatestheminimumnumberofdaysbeforearrivaltheguestmustbookfortheratecategorytobeavailable.'

hadoop - 无法从配置单元创建 hbase 表

这是我正在运行的查询,但出现异常。我将所有jar保存在hive/lib文件夹中,但我仍然面临这个问题。谁能给我建议如何解决这个问题。提前致谢。hive>CREATETABLEhbase_shipper(s_idint,s_namestring)STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITHSERDEPROPERTIES("hbase.columns.mapping"=":key,cf1:val")TBLPROPERTIES("hbase.table.name"="hive_shipper");FAILED:E

使用 ORCH 从 R 中读取配置单元表

在Oracle大数据机中,我们使用OracleR发行版,我们的Hadoop是Kerberos安全的。首先,我从kerberos拿了一张票R>system("echo**[myPass]**|kinit**[myUser]**")我在集群中使用OracleR发行版。所以我在R中安装了ORCH包。并将我的Ore类型设置为Hive。R>library("ORCH")R>ore.connect(type="HIVE")之后,我想读取一个位于hive中的维度简单表R>dim(ore.get(name="a_trial",schema="tgar"))然后我收到以下错误。Erroringet(na

hadoop - 无法在配置单元 server2 上模拟

我试图通过JDBC连接器连接到配置单元服务器2,但出现错误:'userxcantimpersonatey'我将这些属性添加到我的core-site.xml文件中:hadoop.proxyuser.hive.hosts*hadoop.proxyuser.hive.groups*此外,在hive-site.xml中我有:hive.server2.enable.doAstrueSettingthispropertytotruewillhaveHiveServer2executeHiveoperationsastheusermakingthecallstoit.我将我的身份验证设置为无,并且我

mysql - 如何在配置单元中将时间戳转换为 gmt 格式

我的表中有一个时间戳列,我正在从时间戳列中派生一个名为dt_skey的列。为了清楚说明,我们假设时间戳列名称为time_column。这就是time_column看起来像2017-02-0503:33:50,dt_skey列看起来像这样20170205033350这只是删除之间的符号。我的问题是:time_column在美国东部时间,我想在从中导出dt_skey时将其转换为gmt格式。我想这样做的原因是当我们通过impala查询时,时间戳将被转换为gmt格式,而dt_skey不会被转换,因为它是一个int数据类型。我正在通过配置单元进行摄取,当我们通过配置单元查询时,时间戳和dt_sk