草庐IT

spark-hive

全部标签

apache-spark - 如何在 spark shell 中启用或获取跟踪 URL?

当我给spark-shell或Spark-shell--masteryarn时,我在控制台上找不到跟踪Url。假设我更改了执行程序的编号和执行程序内存,我想使用跟踪URL验证这些更改。如果我知道如何获取这个跟踪URL将会很有帮助 最佳答案 您可以通过编程方式获取SparkUIURL:valurl=spark.sparkContext.uiWebUrl 关于apache-spark-如何在sparkshell中启用或获取跟踪URL?,我们在StackOverflow上找到一个类似的问题:

hadoop - Hive:Mapreduce 文件丢失

我可以输入Hive-cli并创建新表。但是,当我尝试向表中插入数据时,它显示:java.io.FileNotFoundException:Filedoesnotexist:hdfs://nameservice1/user/yarn/mapreduce/mr-framework/3.0.0-cdh6.0.1-mr-framework.tar.gz但是HDFS路径hdfsdfs-ls/user/yarn根本不存在。HDFS、YARN/MR、Hive状态正常,我尝试重启所有框架。为什么Yarn没有在HDFS上生成路径,也没有把tar文件放到HDFS路径下?如何解决这个问题?感谢您的帮助。

apache-spark - HadoopPartitions 的 Spark 的默认分区是如何计算的?

我正在阅读JacekLaskowski'sonlinebookaboutApacheSpark,关于分区,他说Bydefault,apartitioniscreatedforeachHDFSpartition,whichbydefaultis64MB我对HDFS不是很熟悉,但是我在复制这个声明时遇到了一些问题。我有一个名为Reviews.csv的文件,它是大约330MB的亚马逊食品评论文本文件。给定默认的64MBblock,我希望ceiling(330/64)=6分区。但是,当我将文件加载到我的SparkShell中时,我得到了9个分区:scala>valtokenized_logs=

sql - hive 日期转换问题

您好,在我的Hive表中,我有一列包含这样的日期值。cl1311020190000003011201900000031122019000000我试过像这样将列值转换为日期格式Selectfrom_unixtime(unix_timestamp(cl1,'yyyy/MM/dd'),'yyyy-MM-dd')fromtable1;它打印NULl。任何帮助将不胜感激。 最佳答案 您说您有dd-mm-yyyy格式的日期,但随后发布的数据中根本没有任何连字符假设31102019000000是31-oct-201900:00:00Selectf

sql - hive 中两条记录之间的差异

我有一个包含5列的表,我需要找到前两条记录的计数列差异。我能够根据某些条件获得前两项记录。例如,我的table看起来像:nameaddresscountcurrent_date_timejohnLA1022019-07-1212:24:38peterMAC1052019-07-1212:24:40johnNY2102019-07-1212:24:02johnWD182019-07-1212:24:12选择查询以获取前两行:SELECTcountFROMtable_nameWHEREname="john"ORDERBYcurrent_date_timeDESCLIMIT2它返回如下:co

hadoop - 在 Hive 中编写带有 where 子句的嵌套 select 语句

我需要在Hive查询的where子句中进行嵌套选择。示例代码片段如下;选择*来自表AwhereTA_timestamp>(selecttimestmpfromTableBwhereid="hourDim")这是可能的还是我在这里做错了什么,因为我在运行上述脚本时遇到错误?!为了进一步详细说明我正在尝试做的事情,有一个cassandra键空间,我发布了带有时间戳的统计信息。定期(例如每小时)使用hive汇总此统计信息,一旦汇总,数据将与相应的小时分开存储。因此,当查询第二次运行(和连续运行)时,查询应该只在新数据上运行(即-timestamp>previous_execution_tim

Flink Shuffle、Spark Shuffle、Mr Shuffle 对比

总结:1、FlinkShufflePipelinedShuffle:上游Subtask所在TaskManager直接通过网络推给下游Subtask的TaskManager;BlockingShuffle:HashShuffle-将数据按照下游每个消费者一个文件的形式组织;Sort-MergeShuffle-将上游所有的结果写入同一个文件,文件内部再按照下游消费者的ID进行排序并维护索引,下游读取数据时,按照索引来读取大文件中的某一段;HybridShuffle:支持以内存或文件的方式存储上游产出的结果数据,原则是优先内存,内存满了后spill到文件,无论是在内存还是文件中,所有数据在产出后即对

join - Hive 中排序合并桶映射连接的输入

我想按照Hive手册(BucketedMapJoin)中的描述使用以下选项执行排序合并连接sethive.input.format=org.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat;sethive.optimize.bucketmapjoin=true;sethive.optimize.bucketmapjoin.sortedmerge=true;两个表都必须在连接列上分桶和排序。我的问题是-排序是否必须是全局的,即第一个桶中的键小于第二个桶中的键,或者每个桶都排序就足够了吗? 最佳答案

hadoop - 如何检查 sort merge bucket join 是否在 HIVE 中工作?

我想验证我的SMB连接是否有效。我可以通过日志验证映射连接,但不能通过SMB。我也通过了解释计划,但没有得到任何提示。请帮助我。 最佳答案 您可以对查询使用EXPLAINEXTENDED。到目前为止,我只能生成一个带有map-reduce的SMB映射连接。当hive正在执行SMBmapjoin时,您可以在explain的输出中的阶段计划下看到“SortedMergeBucketMapJoinOperator”。这是在我的设置中使用map-reduce生成SMB映射连接的代码片段:sethive.execution.engine=mr

join - 如何在 HIVE 中连接两个表。

我有两个表A和B,它们都具有以下结构。//TableANameAgeactualdateno//TableBCitysdateedateid我希望使用JOIN从A和B获取所有字段,其中id=no和sdate=actualdate。我尝试如下使用where子句,但它不起作用。selectv3.*,t3.*fromAv3JOINBt3wherev3.id=t3.noandv3.sdate=t3.actualdatelimit1;使用On子句:selectv3.*,t3.*fromAv3JOINBt3ON(v3.id=t3.noandv3.sdate=t3.actualdate)limit1