Hadoop

Scala 日期格式

我有一个data_date，其格式为yyyymmdd:beginDate=Some(LocalDate.of(startYearMonthDay(0),startYearMonthDay(1),startYearMonthDay(2)))varDate=beginDate.get.......valdata_date=Date.toString().replace("-","")这会给我一个“20180202”的结果但是，对于我的用例，我需要结果为201802(yyyymm)。我不想更改beginDate的值，我只想更改data_date值以适合我的用例，我该怎么做？我可以使用拆分功能

Scala 日期 date code section apache-spark hadoop apache-spark-sql

hadoop - 同时使用 max 和 sum

我有一种情况，我必须求和并最大数量来处理多个每天条目。我在clouderahive中有一个输入表:----------------------------date1|date2|qty----------------------------20180101|20180101|50----------------------------20180101|20180101|15----------------------------20180101|20180102|1----------------------------20180101|20180103|3--------------

hadoop max 20180101 date section hive cloudera

hadoop - Hive:如何处理数据文件中有分隔符的文件？

我有以下数据需要插入到配置单元表中。数据在文件中具有默认分隔符。如何插入到Hive表中？10,Andrew,Man”,”ager,DE,PC11,Arun,Manager,NJ,PC12,Harish,Sales,NJ,MAC13,Robert,Manager,PA,MAC14,Laura,Engineer,PA,MAC谢谢! 最佳答案尝试使用CSVSerdecreatetabletest_table(idint,...)ROWFORMATSERDE'org.apache.hadoop.hive.serde2.OpenCSVSer

何处 hadoop section 34 code hive bigdata hql

apache-spark - 在用压缩文件替换 HDFS 中的小文件时如何避免破坏事件的 Hive/Presto 查询？

我们有100多个HDFS分区，我们每天每小时都会写入这些分区。分区是每天进行的，以便直接加载到Hive中，数据以Parquet格式写入。我们遇到的问题是，因为我们想尽可能快地获取数据可查询，每小时写入导致很多小文件。有很多例子，例如Howtocombinesmallparquetfilestoonelargeparquetfile?对于合并代码；我的问题是在移动/替换新压缩的文件以替换小文件时如何避免破坏人们的主动查询？最佳答案 Metastore对每个分区都有一个文件系统位置。该位置通常基于表和分区:hdfs://namenod

apache-spark 在用 section parquet stackoverflow hadoop hive hdfs presto

sql - SQL中处理以 "00"开头的字符串

我使用Hadoop/hive，在处理以“00”开头的字符串数据时遇到问题。假设“00123”在Hadoop表中存储为string。我的问题是以下2个查询未按原样显示“00123”。而是显示“123”。从DB.TABLE中选择id，其中id="00123"从DB.TABLE中选择类型转换(id为字符串)，其中id="00123"我在Zeppelin上运行上面的查询。谁能帮忙？不确定问题是由于Hadoop还是Zeppelin。最佳答案此错误已在ZEPPELIN-3701中修复(缺少前几个'0'，结果表中数字精度下降)等待0.8.1版

amp 34 section 00123 中选 sql hadoop hive apache-zeppelin

c++ - mapreduce c 编程无法与 -fPIC 链接，如何解决？

我有一个示例程序如下，ubunt18.04上的w.cpp，g++7.3.0#include#include#include#include"stdint.h"#include"Pipes.hh"#include"TemplateFactory.hh"#include"StringUtils.hh"usingnamespacestd;usingnamespaceHadoopPipes;usingnamespaceHadoopUtils;classwMapper:publicMapper{public:wMapper(TaskContext&){}voidmap(MapContext&co

amp mapreduce include section context c++hadoop linker fpic

hadoop - hortonworks 沙箱 : connection denied

如何通过ssh连接到hortonworks的沙箱(2.5)？sshmaria_dev@127.0.0.1我收到消息:权限被拒绝，请重试最佳答案我整理好了。有必要把端口放在最后。sshmaria_dev@127.0.0.1-p2222 关于hadoop-hortonworks沙箱:connectiondenied，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/52163040/

沙箱 hortonworks section code hadoop sandbox hortonworks-data-platform

hadoop - Hive - 将 'yyyy-MM-dd' 之类的字符串转换为数据类型为“yyyy-MM-dd”的日期

我在hive中有一个外部表，它的列为report_dt，数据类型为string，其值类似于2018-09-022018-09-03而且我想根据写在这个外部表上的查询创建托管表，其中report_dt_1作为列，数据类型为date我已经经历了一些线程，我能够像这样查询createtablemanag_newtableasselectto_date(from_unixtime(unix_timestamp(report_dt,'yyyy-MM-dd'),'yyyy-MM-dd'))asreport_dt_1fromexter_table;所以上面的查询创建了一个新表，但是当我descman

yyyy-MM-dd yyyy code section report_dt hadoop hive hiveql

hadoop - Sqoop 停留在进度的 5%

我正在使用Sqoop将数据从Oracle导入到HDFS。当Job启动时，它会停留在5%的进度上大约1小时，并且输出以下信息:INFOmapreduce.Job:TaskId:attempt_1535519556038_0015_m_000037_0,Status:FAILEDContainerlaunchfailedforcontainer_1535519556038_0015_01_000043:org.apache.hadoop.yarn.exceptions.YarnException:Unauthorizedrequesttostartcontainer.Thistokenis

hadoop Sqoop java section code import hdfs

hadoop - 在 socks 代理上访问 GCloud 资源

我正在尝试访问GCloud资源，特别是在端口8088上运行的DataProc的资源管理器HadoopUI。我在GCloud中有以下集群，我在本地通过以下方式创建了一个socks代理:C:\Users\Sujith>gcloudcomputessh"myhadoop-m"--zone=us-east4-c--project=project1234---D10000-N通过公钥认证成功创建隧道接着打开chrome，使用上面创建的隧道启动资源管理器c:\ProgramFiles(x86)\Google\Chrome\Application>chrome.exe"http://myhadoop

上访 hadoop section myhadoop-m code proxy gcloud socks google-cloud-dataproc

105 106 107108109 110 111