草庐IT

db_column

全部标签

hadoop - 如何在 PIG 脚本中将 Columns 本身作为参数传递

在我的PIG脚本中,我想将列位置作为参数传递,请告诉我如何实现这一点a=load'$path'usingPigStorage('');b=groupaby$CountColPos;c=foreachbgenerategroup,COUNT(a);d=ORDERcby$0;STOREdINTO'$TempCountDir';这里如何使用逗号中的-p选项传递$CountColPos的值 最佳答案 这对我有用:$pig-p\$0脚本.pig您需要转义美元符号,以便shell不会将其视为环境变量。

database - sqoop如何处理SQL Server DB锁?

关于从MicrosoftSQLServer将数据导入sqoop的主题。sqoop在运行importtable命令时如何处理数据库锁?更多信息:Sqoop正在使用JDBC驱动程序。 最佳答案 Sqoop通过获取所需的锁并尊重其他进程获取的冲突锁来处理数据库锁。和其他人一样。你到底在担心什么?Sqoop执行普通的INSERT操作。 关于database-sqoop如何处理SQLServerDB锁?,我们在StackOverflow上找到一个类似的问题: https

hadoop - 配置单元 : select row with column having maximum value without join

在表上编写配置单元查询以选择列中具有最大值的行例如,有包含以下数据的表格:keyvalueupdated_at1"a"11"b"21"c"3需要选择最后更新的行。当前使用以下逻辑selecttab1.*fromtable_nametab1joinselecttab2.key,max(tab2.updated_at)asmax_updatedfromtable_nametab2ontab1.key=tab2.keyandtab1.updated_at=tab2.max_updated;还有其他更好的方法吗? 最佳答案 如果update

mysql - 失败 : SemanticException Column line_id Found in more than One Tables/Subqueries

运行此配置单元脚本时出现以下错误。INSERTOVERWRITETABLEfoo_testPARTITION(ds='${DAY}')SELECTdt1.time,dt1.line_id,dt1.foo_id,dt1.bar_codeFROMtest_logsdt1JOIN(SELECTMIN(time)asfoo_time,line_id,foo_idFROMtest_logsWHERE(ds>='2015-02-10')ANDds='2015-02-10')ANDdt1.ds如何在没有错误的情况下运行此配置单元脚本? 最佳答案

scala - 使用 Hivecontext,在本地系统 metastore_db 而不是 Cluster 中本地创建 Hive 表,在哪里放置我的 hive-site.xml

我已经创建了一个SparkContext对象,并尝试从hadoop服务器(不在我的本地)上的文本文件中检索文本,我能够检索到它。当我尝试检索Hive表(位于独立机器、集群上)时,我无法做到,当我创建一个Hive表时,它是在metastore_db中本地创建的objHiveContext.sql("createtableyahoo_orc_table(dateSTRING,open_priceFLOAT,high_priceFLOAT,low_priceFLOAT,close_priceFLOAT,volumeINT,adj_priceFLOAT)storedasorc")我尝试设置Me

hadoop - 我们如何处理来自 Hadoop DB 的处理数据(输出)?

我是Hadoop的新手,如果我的问题太不成熟,我深表歉意。我了解Hadoop用于分析大型数据集上的数据。最后,我们如何处理分析后的数据,创建报告和演示文稿?例如,如果是SSRS报告,报告将基于使用SQL查询从RDBMS中提取的结果数据生成。但是,基于Hadoop的数据库是如何工作的?来自客户端,如果请求特定报告,需要来自HadoopDB的数据点,那么流程将如何?我确信客户端不会直接在hadoop中运行Job来提取生成报告所需的数据,因为hadoop作业需要更多时间来处理。我的问题是,通过在hadoop数据库上运行MR作业,处理后的数据(结果集)是否存储在任何中间数据库中,如RDBMS?

database - Hive 中 collect_list(column) 的最大值

我在Hive中使用以下命令。并得到正确的结果。selectacct_id,collect_list(expr_dt)fromexperiences>groupbyacct_id;输出:900["2015-03-31"]707["2015-03-31","2014-12-10"]903["2015-03-31"]-435["2015-03-31"]718["2015-03-31","2014-06-03"]我想获取每个帐户的最大日期。当我尝试执行以下查询时出现错误。selectacct_id,max(collect_list(expr_dt))fromexperiences>groupb

hadoop - Sqoop 函数 '--map-column-hive' 被忽略

我正在尝试将文件作为parquet导入到配置单元中,而--map-column-hivecolumn_name=timestamp被忽略。column_name列最初是sql中的datetime类型,它在parquet中将其转换为bigint。我想通过sqoop将它转换为时间戳格式,但它不起作用。sqoopimport\--tabletable_name\--drivercom.microsoft.sqlserver.jdbc.SQLServerDriver\--connectjdbc:sqlserver://servername\--usernameuser--passwordpw\

hadoop - 通过 SQOOP 连接到 DB2 时出现连接管理器错误

下面是从DB2::列出数据库的sqoop命令sqooplist-databases--connect'jdbc:db2://DB_IP:PORT/'--usernamexxx--passwordxxx--drivercom.ibm.db2.jcc.DB2Driver但我得到以下错误::WARNsqoop.ConnFactory:Parameter--driverissettoanexplicitdriverhoweverappropriateconnectionmanagerisnotbeingset(via--connection-manager).Sqoopisgoingtofal

scala - Spark : split only one column in dataframe and keep remaining columns as it is

我正在读取spark数据框中的文件。在第一列中,我将得到两个用“_”连接的值。我需要将第一列拆分为两列,并保持其余列不变。我将Scala与Spark结合使用例如:col1col2col3a_1xyzabcb_1lmnopq我需要有新的DF作为:col1_1col1_2col2col3a1xyzabcb1lmnopq只有一列需要拆分成两列。我尝试使用带有df.select的拆分函数,但我需要为剩余的列编写选择并考虑具有100列的不同文件,我想对所有文件使用可重用代码。 最佳答案 你可以这样做:importspark.implicits