hive-serde

mysql - 使用 --create-hive-table 直接在 hive 中导入 mysql 表(sqoop)

我正在为HDPCD考试进行self培训，因此我正在测试使用MySQL到Hive的所有可能的导入和导出。在这个例子中，我想从MySQL导入一个表，并使用参数--create-hive-table在hive中从头开始创建同一个表。尽管在[documentation][1]中包含它，但我找到了一个正确的示例来执行此操作。我已经试过了，但它不起作用sqoopimport--connectjdbc:mysql://master/poc--usernameroot--tabledept--where'id_dept>2'--hive-import--hive-databasepoc--hive-t

中导 mysql hive section table hadoop hadoop2 bigdata

hadoop - 是否可以保存 Hive UDTF 生成的值？

我创建了Hive自定义UDTF。我的新UDTF根据输入的2列返回新的3列。但是，我无法使用生成的值进行任何INSERT操作。例如，INSERTOVERWRITEDIRECTORY'generated_data.csv'SELECTudtf(one,two)FROMtable_orig;INSERTOVERWRITETABLEtest_tableSELECTudtf(one,two)FROMtable_orig;INSERT查询都返回NullPointerException，如下所示:2017-05-30T08:02:45,209ERROR[main([])]:exec.Task(:()

hadoop Hive apache java

hadoop - 尝试用 HQL 中的变量替换 HIVE 字符串文字

您好，我有一个简单的创建表语句...setlocation_stage=${env:HDFS_STAGING_DIR};CREATEEXTERNALTABLEIFNOTEXISTSstage.test(TEST_IDINT,TEST_NAMESTRING)ROWFORMATSERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'WITHSERDEPROPERTIES("separatorChar"=",","quoteChar"="\"","escapeChar"="\\")STOREDASTEXTFILELOCATION"${hivevar:

hadoop HIVE 34 code section hdfs hiveql

hadoop - 启动 hive 时出错

我不知道在Ubuntu17.04的终端中启动配置单元时发生了什么，我在终端上遇到了一些错误。我是Hive的新手，面临一些问题，任何人都可以帮助我解决这个问题。我有(安装并在.bashrc文件中指定):哈多普:2.8.0hive:2.1.1java:1.8.0_131SLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Foundbindingin[jar:file:/usr/local/src/hive-2.1.1/lib/log4j-slf4j-impl-2.4.1.jar!/org/slf4j/impl/StaticLoggerBin

时出 hadoop apache java hive

performance - Hive 联合所有效率和最佳实践

我有一个hive效率问题。我有2个大量查询需要过滤、与映射表连接和联合。两个表的所有连接都是相同的。在将连接应用到组合表之前将它们合并，或者将连接分别应用到每个大规模查询然后合并结果会更有效吗？这有什么不同吗？我尝试了第二种方式，查询运行了24小时后才终止它。我觉得我已尽我所能来优化它，除了可能会重新排列union语句。一方面，我觉得这应该无关紧要，因为映射表连接的数量或行是相同的，而且由于所有内容都是颚化的，因此应该花费大致相同的时间。另一方面，也许通过先做联合，它应该保证在运行连接之前为两个大查询提供完整的系统资源。话又说回来，这可能意味着一次只有2个作业在运行，因此系统没有得到充

有效率 performance section 的 stackoverflow hadoop hive hiveql union-all

sql - 在数据中查找指定模式--Hive

我的表有如下数据Column--------1122521122621122821122121122221122442我需要在模式Hive中找到那些在MIDDLE中有空格的数字的计数。如果可能的话，请帮我解释一下计数。最佳答案使用like和count(*):selectcount(*)fromtwherecolumnlike'%%'; 关于sql-在数据中查找指定模式--Hive，我们在StackOverflow上找到一个类似的问题： https://st

Hive sql section code 1122 hadoop

hadoop - 通过第三方工具的 Google Dataproc Hive 实例

这里需要你的帮助。我希望将我的GoogleDataprocHadoop/Hive实例与第三方工具连接起来，并从“ToadforHadoop”开始。这是一个好的选择吗？或者还有其他我可以使用的工具吗？最佳答案 Dataproc默认运行HiveServer2服务器，如果您在ComputeEngine中适当设置防火墙规则(不要只对来自外部互联网的所有传入连接开放它!将它限制为您自己的IP地址'正在连接)，任何第三方工具都可以正常连接。您可以通过云控制台GUI找到主主机名的外部IP地址。查看主节点上的/etc/hive/conf/hive

Dataproc hadoop section stackoverflow hive google-cloud-dataproc

regex - 如何使用 RegexSerDe 将日志文件加载到 Hive 表中？

我有一个具有以下格式的日志文件，我想从中提取ip、datetime和uri并加载到表中。64.242.88.10--[07/Mar/2004:17:09:01-0800]"GET/twiki/bin/search/Main/SearchResult?scope=text&search=Joris%20*Benschop[^A-Za-z]HTTP/1.1"2004284我可以通过将日志文件行作为单个字符串加载到表中并使用regexp_extract来做到这一点。创建表日志(行字符串)；将数据本地inpath'.../mylog.log'加载到表日志中；选择regexp_extract(l

RegexSerDe regex code section regexp_extract hadoop hive

hadoop - Hive 中的 CRUD 操作

我正在尝试在Hive中执行CRUD操作并能够成功运行插入查询，但是当我尝试运行更新和删除时出现以下异常。失败:SemanticException[错误10294]:尝试使用不支持这些操作的事务管理器进行更新或删除。我运行的查询列表CREATETABLEstudents(nameVARCHAR(64),ageINT,gpaDECIMAL(3,2))CLUSTEREDBY(age)INTO2BUCKETSSTOREDASORC;INSERTINTOTABLEstudentsVALUES('fredflintstone',35,1.28),('barneyrubble',32,2.32);C

hadoop Hive 39 section 时出 hql crud

arrays - Hive Array<Struct<>>插入显示null

我创建了一个包含结构数组的临时表createtabletemp(regionkeysmallint,namestring,commentstring,nationsarray>)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'|'COLLECTIONITEMSTERMINATEDBY',';然后我将数据加载到表中LOADDATALOCALINPATH'/DataSets/region.csv'INTOTABLEtemp;什么时候需要的输出select*fromtemp;是4EUROPELowsaleBusinessRegion[{"n_nationkey":2

amp arrays 34 code comment hadoop struct hive

27 28 293031 32 33