spark-hive

apache-spark - 如何在 spark shell 中启用或获取跟踪 URL？

当我给spark-shell或Spark-shell--masteryarn时，我在控制台上找不到跟踪Url。假设我更改了执行程序的编号和执行程序内存，我想使用跟踪URL验证这些更改。如果我知道如何获取这个跟踪URL将会很有帮助最佳答案您可以通过编程方式获取SparkUIURL:valurl=spark.sparkContext.uiWebUrl 关于apache-spark-如何在sparkshell中启用或获取跟踪URL？，我们在StackOverflow上找到一个类似的问题：

spark 何在 section stackoverflow apache-spark hadoop hadoop-yarn

hadoop - Hive:Mapreduce 文件丢失

我可以输入Hive-cli并创建新表。但是，当我尝试向表中插入数据时，它显示:java.io.FileNotFoundException:Filedoesnotexist:hdfs://nameservice1/user/yarn/mapreduce/mr-framework/3.0.0-cdh6.0.1-mr-framework.tar.gz但是HDFS路径hdfsdfs-ls/user/yarn根本不存在。HDFS、YARN/MR、Hive状态正常，我尝试重启所有框架。为什么Yarn没有在HDFS上生成路径，也没有把tar文件放到HDFS路径下？如何解决这个问题？感谢您的帮助。

Mapreduce hadoop code section HDFS hive hadoop-yarn

apache-spark - HadoopPartitions 的 Spark 的默认分区是如何计算的？

我正在阅读JacekLaskowski'sonlinebookaboutApacheSpark，关于分区，他说Bydefault,apartitioniscreatedforeachHDFSpartition,whichbydefaultis64MB我对HDFS不是很熟悉，但是我在复制这个声明时遇到了一些问题。我有一个名为Reviews.csv的文件，它是大约330MB的亚马逊食品评论文本文件。给定默认的64MBblock，我希望ceiling(330/64)=6分区。但是，当我将文件加载到我的SparkShell中时，我得到了9个分区:scala>valtokenized_logs=

HadoopPartitions apache-spark apache spark HadoopPartition hadoop

sql - hive 日期转换问题

您好，在我的Hive表中，我有一列包含这样的日期值。cl1311020190000003011201900000031122019000000我试过像这样将列值转换为日期格式Selectfrom_unixtime(unix_timestamp(cl1,'yyyy/MM/dd'),'yyyy-MM-dd')fromtable1;它打印NULl。任何帮助将不胜感激。最佳答案您说您有dd-mm-yyyy格式的日期，但随后发布的数据中根本没有任何连字符假设31102019000000是31-oct-201900:00:00Selectf

hive sql section code pre hadoop bigdata hiveql

sql - hive 中两条记录之间的差异

我有一个包含5列的表，我需要找到前两条记录的计数列差异。我能够根据某些条件获得前两项记录。例如，我的table看起来像:nameaddresscountcurrent_date_timejohnLA1022019-07-1212:24:38peterMAC1052019-07-1212:24:40johnNY2102019-07-1212:24:02johnWD182019-07-1212:24:12选择查询以获取前两行:SELECTcountFROMtable_nameWHEREname="john"ORDERBYcurrent_date_timeDESCLIMIT2它返回如下:co

hive sql code current_date_time section hadoop count

hadoop - 在 Hive 中编写带有 where 子句的嵌套 select 语句

我需要在Hive查询的where子句中进行嵌套选择。示例代码片段如下；选择*来自表AwhereTA_timestamp>(selecttimestmpfromTableBwhereid="hourDim")这是可能的还是我在这里做错了什么，因为我在运行上述脚本时遇到错误？!为了进一步详细说明我正在尝试做的事情，有一个cassandra键空间，我发布了带有时间戳的统计信息。定期(例如每小时)使用hive汇总此统计信息，一旦汇总，数据将与相应的小时分开存储。因此，当查询第二次运行(和连续运行)时，查询应该只在新数据上运行(即-timestamp>previous_execution_tim

编写 hadoop strong section https hive hiveql

Flink Shuffle、Spark Shuffle、Mr Shuffle 对比

总结：1、FlinkShufflePipelinedShuffle：上游Subtask所在TaskManager直接通过网络推给下游Subtask的TaskManager；BlockingShuffle：HashShuffle-将数据按照下游每个消费者一个文件的形式组织；Sort-MergeShuffle-将上游所有的结果写入同一个文件，文件内部再按照下游消费者的ID进行排序并维护索引，下游读取数据时，按照索引来读取大文件中的某一段；HybridShuffle：支持以内存或文件的方式存储上游产出的结果数据，原则是优先内存，内存满了后spill到文件，无论是在内存还是文件中，所有数据在产出后即对

Shuffle 对比 xff xff0c xff0 flink spark mr

join - Hive 中排序合并桶映射连接的输入

我想按照Hive手册(BucketedMapJoin)中的描述使用以下选项执行排序合并连接sethive.input.format=org.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat;sethive.optimize.bucketmapjoin=true;sethive.optimize.bucketmapjoin.sortedmerge=true;两个表都必须在连接列上分桶和排序。我的问题是-排序是否必须是全局的，即第一个桶中的键小于第二个桶中的键，或者每个桶都排序就足够了吗？最佳答案

中排 join code section strong hadoop map hive bucket

hadoop - 如何检查 sort merge bucket join 是否在 HIVE 中工作？

我想验证我的SMB连接是否有效。我可以通过日志验证映射连接，但不能通过SMB。我也通过了解释计划，但没有得到任何提示。请帮助我。最佳答案您可以对查询使用EXPLAINEXTENDED。到目前为止，我只能生成一个带有map-reduce的SMB映射连接。当hive正在执行SMBmapjoin时，您可以在explain的输出中的阶段计划下看到“SortedMergeBucketMapJoinOperator”。这是在我的设置中使用map-reduce生成SMB映射连接的代码片段:sethive.execution.engine=mr

中工 hadoop key value section hive

join - 如何在 HIVE 中连接两个表。

我有两个表A和B，它们都具有以下结构。//TableANameAgeactualdateno//TableBCitysdateedateid我希望使用JOIN从A和B获取所有字段，其中id=no和sdate=actualdate。我尝试如下使用where子句，但它不起作用。selectv3.*,t3.*fromAv3JOINBt3wherev3.id=t3.noandv3.sdate=t3.actualdatelimit1;使用On子句:selectv3.*,t3.*fromAv3JOINBt3ON(v3.id=t3.noandv3.sdate=t3.actualdate)limit1

何在 join actualdate section code hadoop hive hiveql

121 122 123124125 126 127