multiple-tables

SQL 查询 : How to select multiple instances of a single item without collapsing into a group?

我正在尝试在Impala中执行SQL查询。我有一个数据表，其中(除其他外)有两列，其值相交多次。例如，假设我们有一个表，其中包含两列相关的姓名和电话号码:姓名电话号码约翰·史密斯(123)456-7890罗伯·约翰逊(123)456-7890格雷格·jackson(123)456-7890汤姆格林(123)456-7890jack·马西斯(123)456-7890约翰·史密斯(234)567-8901罗伯·约翰逊(234)567-8901乔·沃尔夫(234)567-8901迈克·托马斯(234)567-8901吉姆·摩尔(234)567-8901约翰·史密斯(345)678-9012罗

collapsing instances 罗伯 phone_number number sql hadoop impala

java - hadoop mapreduce : where's the final hdfs result file when I speficify multiple reducers?

我有一个wordCount.java程序并修改它以支持多个映射器和缩减器，如下所示:publicclassWordCountextendsConfiguredimplementsTool{publicintrun(String[]args)throwsException{JobConfconf=newJobConf(getConf(),w1_args.class);for(inti=0;i然后我编译并运行它:hadoopjarWordCount-1.0-SNAPSHOT.jarWordCount-m3-r15inputoutput它运行良好，当我检查输出目录时:$hdfsdfs-lso

mapreduce speficify output part section java hadoop hdfs

hadoop - Hive 中的堆栈函数 : how to specify multiple aliases?

我想使用此处描述的堆栈功能:https://cwiki.apache.org/Hive/languagemanual-udf.html#LanguageManualUDF-BuiltinTableGeneratingFunctions%2528UDTF%2529Hive要求我为结果列提供多个别名(“AS子句中的别名数与UDTF输出的列数不匹配，预期有3个别名但得到了1个”)。提供多个别名的语法是什么？最佳答案语法如下:SELECTstack(n,col1,col2,...,colk)AS(alias1,alias2,...)FR

multiple aliases section alias LanguageManualUDF-BuiltinTableGen hadoop hive

hadoop - Sqoop Teradata 连接器问题 - 错误 : The user does not have CREATE TABLE access to database

当我尝试从TeradataView导入表时，我遇到了Sqoop的Teradata连接器问题。我只能访问View。但不知何故，当sqoop作业开始时，它试图在我正在访问的TeradataDB中创建一个表，但无权在该DB/schema中创建任何表我低于错误13/05/3103:40:12ERRORtool.ImportTool:EncounteredIOExceptionrunningimportjob:com.teradata.hadoop.exception.TeradataHadoopSQLException:com.teradata.jdbc.jdbc_4.util.JDBCExc

Teradata database java apache hadoop hdfs sqoop

hadoop - HIVE:CREATE TABLE AS SELECT 命令无法指定目标表的列列表

我怎样才能让它工作？hive>desctemp;OKaintbintTimetaken:0.077seconds,Fetched:2row(s)我想创建列名为c和d的t2HIVE表，但出现以下错误。hive>createtablet2(cint,dint)asselecta,bfromtemp;FAILED:SemanticException[Error10065]:CREATETABLEASSELECTcommandcannotspecifythelistofcolumnsforthetargettable 最佳答案您无需再次提

列列 hadoop section code pre hive

hadoop - 如何让 HIVE 中的 CREATE TABLE...AS SELECT 不填充数据？

当我在HIVE中运行CTAS时，数据也会同时填充。但我只想创建表，而不是填充数据。我应该怎么做？谢谢。最佳答案您可以使用LIKE关键字来做到这一点。createtablenew_table_nameLIKEold_table_name这将创建没有数据的表结构。关于hadoop-如何让HIVE中的CREATETABLE...ASSELECT不填充数据？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co

充数 hadoop section strong 中运 hive hiveql

apache - 哈多普 : supporting multiple outputs for Map Reduce jobs

似乎Hadoop(reference)支持它，但我不知道如何使用它。我想:a.)Map-ReadahugeXMLfileandloadtherelevantdataandpassontoreduceb.)Reduce-writetwo.sqlfilesfordifferenttables为什么我选择map/reduce是因为我必须对驻留在磁盘上的超过100k(可能更多)xml文件执行此操作。欢迎大家提出更好的建议感谢任何解释如何使用它的资源/教程。我正在使用Python并且想学习如何使用streaming实现这一点谢谢最佳答案这

supporting multiple section code reduce apache hadoop mapreduce

java.lang.NoSuchFieldError : type When creating a Hive table 错误

我正在用代码创建一个配置单元表:HiveInterfaceclient=newHiveServer.HiveServerHandler();client.execute("CREATETABLEu_data("+"useridINT,"+"movieidINT,"+"ratingINT"+")"+"ROWFORMATDELIMITED"+"FIELDSTERMINATEDBY'\\t'"+"STOREDASTEXTFILE;");当运行execute命令时我得到这个异常:java.lang.NoSuchFieldError:typeatorg.apache.hadoop.hive.ql

NoSuchFieldError creating code java section maven hadoop hive

斯卡拉 Spark /鲨鱼 : How to access existing Hive tables in Hortonworks?

我正在尝试查找有关该主题的方法的一些文档/描述，请帮忙。我安装了Hortonworks的Hadoop2.2.0以及一些我需要查询的现有Hive表。HiveSQL在单个节点和集群上的运行速度极慢且不合理。我希望鲨鱼能更快地工作。从Spark/Shark文档中我无法弄清楚如何让Shark与现有的Hive表一起工作。任何想法如何实现这一目标？谢谢! 最佳答案您需要在特定于shark的配置单元目录中配置Metastore。在我回答的类似问题中提供了详细信息here.总而言之，您需要将hive-default.xml复制到hive-site

斯卡拉斯卡 gt lt property scala hadoop hive apache-spark shark-sql

hadoop - Hive:对于通过 HiveServer2 具有超过 5000 行的表，select * from table 失败

我在Hive中有一个表sdh，它有100000行。当我执行命令时select*fromsdh在CLI上，显示所有行但是当我在直线上通过HiveServer2运行它时，相同的命令只是挂起所有其他具有1000奇数行的表都可以通过CLI或直线运行。还有其他人遇到过类似的问题吗？我从日志中得到错误org.apache.thrift.TApplicationException:InternalerrorprocessingFetchResultsatorg.apache.thrift.TApplicationException.read(TApplicationException.java:10

HiveServer2 HiveServer apache java BeeLine hadoop hive