草庐IT

python - 如何使用pyhive访问远程配置单元

使用此链接尝试连接到远程配置单元。下面是使用的代码。收到的错误消息也在下面给出HowtoAccessHiveviaPython?代码frompyhiveimporthiveconn=hive.Connection(host="10.111.22.11",port=10000,username="user1",database="default")错误信息Couldnotconnecttoanyof[('10.111.22.11',10000)]Traceback(mostrecentcalllast):File"",line1,inFile"/opt/anaconda3/lib/pyt

python - 具有 python 转换功能的配置单元 : "cannot recognize input near ' transform'"error

我有一个Hive表,用于跟踪对象在流程各个阶段移动时的状态。该表如下所示:hive>descjourneys;object_idstringjourney_statusesarray这是一个典型的记录示例:12345678["A","A","A","B","B","B","C","C","C","C","D"]表中的记录是使用Hive0.13的collect_list生成的,状态有顺序(如果顺序不重要,我会使用collect_set).对于每个object_id,我想缩写旅程以按它们出现的顺序返回旅程状态。我编写了一个从标准输入读取的快速Python脚本:#!/usr/bin/envp

hadoop - 在配置单元中使用外部表支持数组列类型的最佳方法是什么?

所以我有制表符分隔数据的外部表。一个简单的表格如下所示:createexternaltableifnotexistscategories(idstring,tagstring,legidstring,imagestring,parentstring,created_datestring,time_stampint)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'LOCATION's3n://somewhere/';现在我要在末尾添加另一个字段,它将是一个逗号分隔的值列表。有没有一种方法可以像指定字段终止符一样指定它,或者我必须依赖其中一个serdes?例

hadoop - 配置单元:使用带分隔符的 collect_set

我正在尝试在配置单元查询中使用collect_set按条件对组中的列进行分组。每行都有空格作为分隔符,而不是“,”之类的。在这种情况下如何将分隔符更改为“,”或任何其他分隔符?提前致谢。问候,娜迦本普拉拉 最佳答案 COLLECT_SET返回一个数组,然后您可以使用CONCAT_WS将条目连接成单个逗号分隔值:selectserial_num,concat_ws(",",collect_set(customer_lastName))asconcatenate_lastNamesfromExternal_Tablegroupbyser

java - 失败,异常 java.io.IOException :org. apache.avro.AvroTypeException : Found long, 期望在配置单元中联合

需要帮助!!!我正在使用flume将Twitter提要流式传输到hdfs中并将其加载到hive中进行分析。步骤如下:hdfs中的数据:我已经描述了avroschema在avsc文件并将其放入hadoop中:{"type":"record","name":"Doc","doc":"adoc","fields":[{"name":"id","type":"string"},{"name":"user_friends_count","type":["int","null"]},{"name":"user_location","type":["string","null"]},{"name":

hadoop - 无法使用直线连接到配置单元,用户 root 无法模拟匿名

我正在尝试使用beeline!connectjdbc:hive2://localhost:10000连接到hive,系统要求我输入用户名和密码连接到jdbc:hive2://localhost:10000'输入jdbc的用户名:hive2://localhost:10000:输入jdbc的密码:hive2://localhost:10000:因为我不知道应该输入什么用户名或密码,所以我将其留空,这会导致错误:Error:Failedtoopennewsession:java.lang.RuntimeException:org.apache.hadoop.ipc.RemoteExcept

hadoop - 配置单元失败 : ParseException line 2:0 cannot recognize input near '' macaddress '' ' CHAR' '(' in column specification

我试过运行hive-v-fsqlfile.sql文件内容如下CREATETABLEUpStreamParam('macaddress'CHAR(50),'datats'BIGINT,'cmtstimestamp'BIGINT,'modulation'INT,'chnlidx'INT,'severity'BIGINT,'rxpower'FLOAT,'sigqnoise'FLOAT,'noisedeviation'FLOAT,'prefecber'FLOAT,'postfecber'FLOAT,'txpower'FLOAT,'txpowerdrop'FLOAT,'nmter'FLOAT,'

hadoop - 在配置单元中,有没有办法指定在哪些列之间添加新列?

我可以ALTERTABLEtable_nameADDCOLUMNS(user_idBIGINT)将新列添加到我的非分区列的末尾和我的分区列之前。有什么方法可以在我的非分区列中的任意位置添加新列吗?例如,我想将这个新列user_id作为我表的第一列 最佳答案 是的,可以更改列的位置,但只有在使用CHANGECOLUMN将其添加到表中之后在您的情况下,首先使用以下命令将列user_id添加到表中:ALTERTABLEtable_nameADDCOLUMNS(user_idBIGINT);现在要使user_id列成为表中的第一列,请使用带

sql - 使用配置单元 udf 函数计算运行总和

我是Hive的新手,请原谅我对以下内容的无知。我有一个表格如下:SELECTa.storeid,a.smonth,a.salesFROMtablea;1001135000.01002235000.01001225000.010023110000.01001340000.01002140000.0我的目标输出如下:1001135000.035000.01001225000.060000.01001340000.0100000.01002140000.040000.01002235000.075000.010023110000.0185000.0我写了一个简单的hiveudfsum类来实现

hadoop - 如何在配置单元插入到查询中指定列列表

我刚刚安装并配置了ApacheHive版本1.1.0。然后我通过查询此查询创建了一个表:createtableperson(name1string,surname1string);然后我想通过以下方式添加一行:insertintoperson(name1,surname1)values("Alan","Green");它会导致错误:Error:Errorwhilecompilingstatement:FAILED:ParseExceptionline1:20cannotrecognizeinputnear'(''name1'','instatement(state=42000,code