草庐IT

CURRENT_AS_PATHNAME

全部标签

sql - Hive-我如何使用原始表中的分区 "create table as select.."?

我需要从我们的配置单元dlk创建一个“工作表”。虽然我可以使用:createtablemy_tableasselect*fromdlk.big_table很好,我在从原始“big_table”继承分区(属性day、month和year)或只是创建来自这些属性的新属性。搜索网络并没有真正帮助我回答这个问题-所有“教程”或解决方案都涉及createasselect或创建分区,而不是两者。这里有人可以帮忙吗? 最佳答案 不支持创建分区表作为选择。您可以分两步完成:像dlk.big_table一样创建表my_table;这将创建具有相同架构

scala - 星火 SQL : access file in current worker node directory

我需要使用spark-sql读取一个文件,该文件在当前目录中。我使用此命令解压缩存储在HDFS上的文件列表。valdecompressCommand=Seq(laszippath,"-i",inputFileName,"-o","out.las").!!该文件在当前工作节点目录中输出,我知道这一点是因为通过scala执行"ls-a"!!我可以看到该文件在那里。然后我尝试使用以下命令访问它:valdataFrame=sqlContext.read.las("out.las")我假设sql上下文会尝试在当前目录中查找文件,但事实并非如此。此外,它不会抛出错误,而是会发出一条警告,指出找不到

Hadoop MapReduce : Is it possible to only use a fraction of the input data as the input to a MR job?

我的输入数据的关键类是WritableComparable,它以MapFile的形式存在。有没有什么方法可以设置最小和最大键值,并且只将记录传输到键值介于两者之间的映射器? 最佳答案 这是不可能的。因为对于map-reduce作业,我们只是指定输入。我们可以做的一件事是,在映射器中编写一个条件。如果键是黑白最小值和最大值,则只处理键值对并将输出发送到reducer。否则,什么都不做。但即使在这种情况下,我们的map阶段也会处理所有输入,而reduce阶段只会处理我们指定的键范围。更好的方法:当在给定输入上运行map-reduce作业

hadoop - 使用 -query 和 --as-parquetfile 运行 Sqoop : java. lang.NullPointerException 时出现异常

我正在尝试将表数据从Redshift导入到HDFS(使用Parquet格式)并遇到如下所示的错误:15/06/2511:05:42ERRORsqoop.Sqoop:GotexceptionrunningSqoop:java.lang.NullPointerExceptionjava.lang.NullPointerExceptionatorg.apache.sqoop.tool.CodeGenTool.generateORM(CodeGenTool.java:97)atorg.apache.sqoop.tool.ImportTool.importTable(ImportTool.jav

r - 如何使用 SparkR 的 as.DataFrame() 将大型 R data.frames 加载到 Spark 中?

我的目标是将大型Rdata.frame加载到Spark中。data.frame的大小是500万。各种类型的行和7列。一旦加载到R中,这个data.frame占用大约。200MB内存。但是,当我尝试使用as.DataFrame()函数将其加载到Spark中时,Rsession永远被占用,它已经运行了1小时,我不得不取消该操作。详情如下:我正在创建以下数据集以在此示例中使用:n=5e6#setsamplesized上面创建了一个示例data.frame大小,大约200mb:paste0("size:",round(as.numeric(object.size(d))/1000000,1),

hadoop - Apache Hadoop 中的 "generally available"、 "production ready"、 "stable"和 "latest/current"之间有什么区别?

在描述软件产品版本的状态时,“普遍可用”、“生产就绪”、“稳定”和“最新/当前”之间有什么区别?我在ApacheHadoop网站上遇到了这些术语,在尝试选择正确的版本/发布/分发(这三个词也让我感到困惑)进行下载时:https://hadoop.apache.org/docs/r3.2.0/ApacheHadoop3.2.0incorporatesanumberofsignificantenhancementsoverthepreviousstableminorreleaseline(hadoop-3.1).Thisisthefirstreleasein3.2releaselinewh

java - Hbase 映射减少 : how to use custom class as value for the mapper and/or reducer?

我正在尝试熟悉Hadoop/HbaseMapReduce作业,以便能够正确编写它们。现在我有一个Hbase实例,其中包含一个名为dns的表,其中包含一些DNS记录。我试图制作一个简单的唯一域计数器来输出文件并且它有效。现在,我只使用IntWritable或Text,我想知道是否可以为我的Mapper/Reducer使用自定义对象。我试着自己做,但我得到了Error:java.io.IOException:Initializationofallthecollectorsfailed.Errorinlastcollectorwas:nullatorg.apache.hadoop.mapre

sql - 从 current_date 获取星期并在 SQL 中创建一个具有动态名称的表

我每周运行一个特定的查询,创建一个包含所需数据的周表。表名格式如下db_name.subscriptions_wk29--为第29周数据创建的表db_name.subscriptions_wk30--为第30周数据创建的表db_name.subscriptions_wk31--为第31周数据创建的表由于这是一项重复性任务,我想安排此查询,使其在特定一周的每个星期一自动运行以获取前一周的数据。我面临的问题是,我不知道如何在每周运行查询时动态更改表名。因此,当我下次运行查询时,它应该会自动创建一个名为db_name.subscriptions_wk32的表。我可以从weekofyear('

hadoop - Sqoop import --as-parquetfile with CDH5

我正在尝试将数据直接从mysql导入到parquet,但它似乎无法正常工作...我正在使用包含Sqoop1.4.5的CDH5.3。这是我的命令行:sqoopimport--connectjdbc:mysql://xx.xx.xx.xx/database--usernameusername--passwordmypass--query'SELECTpage_id,user_idFROMpages_usersWHERE$CONDITIONS'--split-bypage_id--hive-import--hive-tabledefault.pages_users3--target-dirh

hadoop - Apache hive : How to use Unicode character (with octal above 177) as field delim

在我们的用例中,我们将获取格式如下的UTF-8文本数据:Data1§Data2Data3§Data4现在我们希望在ApacheHive中将Data1和Data3放在一列中,将Data2和Data4放在一列中。听起来很简单。但是,我们无法将§字符(即unicodeU+00A7“SectionSign”参见here)指定为字段分隔符。我们已经尝试了以下方法,都没有达到可接受的结果。1)使用方法终止的普通字段ROWFORMATDELIMITEDFIELDSTERMINATEDBY'§'返回(注意附加到每个单元格的?,在其他客户端中,unicode符号表示无法识别的符号)+----------