Hadoop_草庐IT

mysql - 如何在配置单元中将时间戳转换为 gmt 格式

我的表中有一个时间戳列，我正在从时间戳列中派生一个名为dt_skey的列。为了清楚说明，我们假设时间戳列名称为time_column。这就是time_column看起来像2017-02-0503:33:50，dt_skey列看起来像这样20170205033350这只是删除之间的符号。我的问题是:time_column在美国东部时间，我想在从中导出dt_skey时将其转换为gmt格式。我想这样做的原因是当我们通过impala查询时，时间戳将被转换为gmt格式，而dt_skey不会被转换，因为它是一个int数据类型。我正在通过配置单元进行摄取，当我们通过配置单元查询时，时间戳和dt_sk

配置单何在 code 39 dt_skey mysql hadoop apache-spark hive impala

python - 使用 Spark 的默认 log4j 配置文件 : org/apache/spark/log4j-defaults. 属性将默认日志级别设置为 "WARN"

我是spark的新手，我将spark2.1.0与python2.7一起使用，但无法正常工作。我一直在寻找一个星期来找到我的问题的解决方案，但没有成功。当我在commmadLine中运行pyspark时出现以下错误:Python2.7.13(v2.7.13:a06454b1afa1,Dec172016,20:42:59)[MSCv.150032bit(Intel)]onwin32Type"help","copyright","credits"or"license"formoreinformation.UsingSpark'sdefaultlog4jprofile:org/apache/s

log4 log4j-defaults hadoop 34 java python apache-spark pyspark

linux - 如何将文件从本地磁盘传输到 Cloudera 虚拟机？ (我已经看过了所以什么也没发现)

这太琐碎了，太琐碎了，我在这里找不到任何东西。所以，我的任务很简单。获取一个简单的.txt文件并将其传输到cloudera中的hdfs目录中。我已经试过了:但运气不好。任何帮助或指导将不胜感激。最佳答案假设您已经将文件复制到VM并且您已登录到VM(linux)，您应该使用的命令是:hdfsdfs-copyFromLocal如果您没有在HDFS上创建主目录，请先使用以下方法创建它:hdfsdfs-mkdir-p/user/madhav/你在命令中给出的路径在我看来是错误的。它应该看起来像:hdfsdfs-copyFromLocal

Cloudera linux section code hdfs hadoop

java - Hadoop 2.7 - 在 HDFS 中创建目录的简单 Java 代码

我正在尝试的是以编程方式使用Java在HDFS中创建一个目录。我收到此错误。线程“main”中的异常java.util.ServiceConfigurationError:org.apache.hadoop.fs.FileSystem:Providerorg.apache.hadoop.fs.s3a.S3AFileSystem无法实例化引起:java.lang.NoClassDefFoundError:com/amazonaws/AmazonServiceException由以下原因引起:java.lang.ClassNotFoundException:com.amazonaws.Am

Hadoop java import apache amazon-s3 mapreduce

date - 如何在配置单元中将字符串格式转换为日期格式

我的表中有时间戳和日期列。我的日期和时间戳列是字符串类型。我需要将其转换为DATE和TIMESTAMP格式。但我数据中的格式是2/4/20173:03。因此，当我将其转换为TIMESTAMP数据类型时，它会给出NULL。我们可以做些什么来解决这个问题？这是我的示例日期和时间列数据。2/3/201723:372/3/201723:372/3/201723:402/3/201723:502/3/201723:512/3/201723:532/3/201723:552/4/20170:082/4/20170:57提前致谢最佳答案 cre

配置单何在 2017 00 23 date hadoop hive hiveql datetime-format

hadoop - HDFS 和 ZooKeeper 之间的区别？

在阅读ZooKeeper的文档时，在我看来，HDFS依赖于与ZooKeeper几乎相同的分发/复制机制(广义上讲)。我听到一些回声，但我仍然不能清楚和严格地分辨事物。我知道ZooKeeper是一个集群管理/同步工具，而HDFS是一个分布式文件管理系统，但是HDFS集群是否需要ZK？最佳答案是的，因素是具有zookeper仲裁的hadoop集群上的分布式处理和高可用性例如。HadoopNamenode故障转移过程。Hadoop高可用性是围绕ActiveNamenode和StandbyNamenode设计的，用于故障转移过程。在任何

ZooKeeper hadoop section strong hdfs bigdata

java - 调用 MapReduce 两次

我在这里学习字数统计教程:https://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html#Example:_WordCount_v1.0我可以得出一个词以这种格式出现的频率:wordfrequency112233415261但是，现在我需要像这样对频率进行分组:frequencycount132231基本上，对于每个频率，找出它出现的频率。我将如何修改代码以显示此内容？我觉得我必须修改IntSumReducer但我从未真正使

MapReduce java section hadoop

hadoop - 简单计数查询超出 Impala 内存限制

编辑:表中有一些损坏的AVRO文件。删除其中一些后，一切正常。我已经使用avro-tools将这些文件解压缩为json，并且解压缩的文件也不是很大。所以它似乎是Impala中处理损坏的AVRO文件的一些错误。我有一个Impala表，采用gzip压缩的AVRO格式，按“天”分区。当我执行查询时:从adhoc_data_fast.log中选择count(0)whereday='2017-04-05';它说:Query:selectcount(0)fromadhoc_data_fast.logwhereday='2017-04-05'Querysubmittedat:2017-04-0613

hadoop Impala 2017 avro log bigdata

java - 无法使用 JDBC 连接到 Phoenix

我有一个使用HBase和Phoenix设置的Hadoop集群，我正在尝试使用JDBC连接到Phoenix，但我有点无法成功连接。我想使用JDBC通过Python3.x进行连接，但为了简单的测试目的，我在Eclipse中使用Java设置了一个连接。我最初使用Python的第3方库(phoenixdb)，但我开始使用这个库时出现超时(随着我的数据库的增长)。在此之后，我更改了我的hbase-site.xml设置中的一些变量，以避免超时，但出于某种原因，这并没有解决我使用这个第3方库的问题。所以我尝试转向JDBC和Java项目-至少是为了测试。我有以下Java代码:publicclassPh

Phoenix java code section SQLException hadoop jdbc jar apache-phoenix

hadoop - 简单的基于 deeplearning4J Java 的 Spark 示例？

我需要在hadoop集群中运行一个简单的基于Java的deeplearning4j示例，我找到了一个here.我需要指定来自命令行的输入(这应该是HDFS上的路径)并且输出应该转到HDFS，以供以后查看然而，在示例中没有提及，它是硬编码从本地文件系统输入并输出到本地文件系统。有人可以帮我吗？最佳答案也许是最近对我们示例的拉取请求的某种组合:https://github.com/deeplearning4j/dl4j-examples/pull/384Spring-hadoop可以帮助您吗？http://projects.spri

deeplearning4J deeplearning4 section deeplearning hadoop apache-spark