column-alias_草庐IT

hadoop - Sqoop 函数 '--map-column-hive' 被忽略

我正在尝试将文件作为parquet导入到配置单元中，而--map-column-hivecolumn_name=timestamp被忽略。column_name列最初是sql中的datetime类型，它在parquet中将其转换为bigint。我想通过sqoop将它转换为时间戳格式，但它不起作用。sqoopimport\--tabletable_name\--drivercom.microsoft.sqlserver.jdbc.SQLServerDriver\--connectjdbc:sqlserver://servername\--usernameuser--passwordpw\

scala - Spark : split only one column in dataframe and keep remaining columns as it is

我正在读取spark数据框中的文件。在第一列中，我将得到两个用“_”连接的值。我需要将第一列拆分为两列，并保持其余列不变。我将Scala与Spark结合使用例如:col1col2col3a_1xyzabcb_1lmnopq我需要有新的DF作为:col1_1col1_2col2col3a1xyzabcb1lmnopq只有一列需要拆分成两列。我尝试使用带有df.select的拆分函数，但我需要为剩余的列编写选择并考虑具有100列的不同文件，我想对所有文件使用可重用代码。最佳答案你可以这样做:importspark.implicits

dataframe remaining section 34 col scala apache-spark hadoop

postgresql - 当 Hawq 投诉 : missing data for column "SoldToAddr2" 时如何解决错误

我们有一个小型的关键hadoop-hawq系统集群。我们必须读取一个外部表。即从ext_table中选择*但是当我在Hawq中发出关于以下错误的投诉时:ErrorHawqcomplaintsfor:missingdataforcolumn"SoldToAddr2"我们尝试了以下操作:我们尝试在ext_table定义的格式子句中使用不同的特殊字符:forex:CREATEREADABLEEXTERNALTABLEext_table("ID"INTEGER,timetimestamp,"Customer"char(7),"Name"varchar,"ShortName"char(10),"

SoldToAddr2 postgresql 34 char decimal hadoop external-tables hawq

scala - Spark 标度 : select column name from other dataframe

有两个json，第一个json有更多的列，并且总是超集。valdf1=spark.read.json(sqoopJson)valdf2=spark.read.json(kafkaJson)除了操作:我喜欢在df1和df2上应用except操作，但是df1有10列，而df2只有8列。如果手动从df1中删除2列，则except将起作用。但是我有50多个表/json，需要对所有50组表/json执行EXCEPT。问题:如何从DF1中仅选择DF2(8)列中可用的列并创建新的df3？所以df3将拥有来自df1的有限列的数据，并且它将与df2列匹配。最佳答案

dataframe column section strong df scala apache-spark hadoop apache-spark-sql

hadoop - pig : Create new column based off of two other columns

我想知道是否有可能在pig身上做这样的事情:一共有三列:“类型1”、“类型2”、“类型3”B101,159,74我想这样定义C列:如果A=="type1"那么C=B;否则C=0这在pig身上可能吗？最佳答案是的，这是可能的。你可以这样写:data=LOAD'$dataSource'usingAvroStorage();--data={A,B}data2=FOREACHdataGENERATEA,B,(A=='type1'?B:0)ASC;dumpdata2; 关于hadoop-pig

columns hadoop section data stackoverflow apache-pig bigdata

hadoop - Sqoop 中拆分 <column> --target-dir 的目的是什么

当我们在sqoop中编写--split-by时，内部发生了什么？例子:sqoopimport--connectjdbc:mysql://localhost/test--usernameroot--passwordtraining123--query'select*fromtransactionwhere$CONDITIONS'--split-byTxnid--target-dirinput/transaction 最佳答案 HadoopMAPReduce就是分而治之。为了将数据分割成多个独立的切片并行传输，Sqoop需要找到--sp

target-dir amp section split-by code hadoop

hadoop - hive QL : split column into 2 columns and rank each column

代码selectc1,c2,c3,c4,c5,c6fromtablewherec5in('a','b')从这里开始，我想将c5列拆分为两列，然后根据它们对c6的值对它们进行排名。一列应该由所有a结果组成，另一列应该是所有b结果。我已经能够使用rank()对它们进行排名，但无法将列分开。我还没有得到其他人曾经为我工作的技术。最佳答案 selectc1,c2,c3,c4,c5,c6,rank()over(partitionby...orderbycasewhenc5='a'then1casewhenc5='b'then2end)asr

column columns section code 39 hadoop hive

hadoop - pig 中的 "unable to open iterator for an alias"是什么意思？

我正在尝试使用联合运算符，如下所示uni_b=UNIONA,B,C,D,E,F,G,H;这里所有的关系A,B,C...H都具有相同的模式当我使用dump运算符时，直到85%运行正常..之后它显示以下错误..ERROR1066:Unabletoopeniteratorforaliasuni_b这是什么？问题出在哪里？我应该如何调试？这是我的pig脚本...ip=load'/jee/jee_data.txt'USINGPigStorage(',')as(id:Biginteger,fname:chararray,lname:chararray,board:chararray,eid:cha

amp iterator DESC board generate hadoop apache-pig hadoop2 bigdata

SQL 查询 : Identify duplicate values and also show the values in column that is not duplicated

我正在分析hadoop中的数据。有一些重复条目，其中A、B列重复，而C列不同。我想要做的是仅识别A、B重复项，然后为每个重复项打印出C列的不同值。示例数据:row,data,input_date,INPUT__FILE__NAME0,data1,20180702,LOCATION11,data1,20180702,LOCATION22,data1,20180702,LOCATION23,data2,20180702,LOCATION14,data2,20180702,LOCATION15,data2,20180702,LOCATION26,data2,20180702,LOCATION

values duplicated data 20180702 LOCATION sql hadoop

hadoop - PIG : Unable to open iterator for alias AliasName. 标量在输出中有多于一行

我是pig的新手，正在尝试自学。我编写了一个脚本来获取从words.txt文件中读取的单词的纪元时间。这是脚本。words=LOAD'words.txt'ASword:chararray;B=FOREACHAGENERATECONCAT(CONCAT(A.word,'_'),(chararray)ToUnixTime(CurrentTime());dumpB;但问题是，如果words.txt文件只有一个单词，它会给出正确的输出。如果它有多个词，比如word1word2word3word4然后它给出了以下错误ERROR1066:UnabletoopeniteratorforaliasBj

多于 AliasName word section strong hadoop apache-pig epoch