hadoop-mapreduce

hadoop - 简单计数查询超出 Impala 内存限制

编辑:表中有一些损坏的AVRO文件。删除其中一些后，一切正常。我已经使用avro-tools将这些文件解压缩为json，并且解压缩的文件也不是很大。所以它似乎是Impala中处理损坏的AVRO文件的一些错误。我有一个Impala表，采用gzip压缩的AVRO格式，按“天”分区。当我执行查询时:从adhoc_data_fast.log中选择count(0)whereday='2017-04-05';它说:Query:selectcount(0)fromadhoc_data_fast.logwhereday='2017-04-05'Querysubmittedat:2017-04-0613

hadoop - 简单的基于 deeplearning4J Java 的 Spark 示例？

我需要在hadoop集群中运行一个简单的基于Java的deeplearning4j示例，我找到了一个here.我需要指定来自命令行的输入(这应该是HDFS上的路径)并且输出应该转到HDFS，以供以后查看然而，在示例中没有提及，它是硬编码从本地文件系统输入并输出到本地文件系统。有人可以帮我吗？最佳答案也许是最近对我们示例的拉取请求的某种组合:https://github.com/deeplearning4j/dl4j-examples/pull/384Spring-hadoop可以帮助您吗？http://projects.spri

deeplearning4J deeplearning4 section deeplearning hadoop apache-spark

hadoop - s3n/s3a如何管理文件？

我一直在使用KafkaConnect和Secor等服务将Parquet文件保存到S3。我对HDFS或Hadoop不是很熟悉，但似乎这些服务通常会在批量写入s3之前将临时文件写入本地内存或磁盘。s3n/s3a文件系统是在本地虚拟化HDFS样式的文件系统，然后按配置的时间间隔推送，还是在写入s3n/s3a和写入s3之间存在一对一的对应关系？我不确定我在这里问的问题是否正确。任何指导将不胜感激。最佳答案 S3A/S3N只是针对远程对象存储实现Hadoop文件系统API，包括假装它具有您可以重命名和删除的目录。它们历来保存您写入本地磁盘的

管理文件 hadoop section s3 code amazon-s3 hdfs apache-kafka

mysql - 如何将数据从 Hadoop 导出到 MySQL/任何数据库？

我研究过的大多数教程都指出我必须使用Sqoop用于导出/导入，很多手册都展示了如何将数据从DB导出到HDFS，但是我如何进行反向大小写？假设，我在localhost上有一个company数据库，它有一个空的users表，其中包含以下列:id、user和我有hadoop为我提供像(id,user)这样的数据，但将其保存到一些hadoop-output.txt中而不是到MySQL。是否有一些命令行命令可以通过Sqoop从HDFS导入MySQL？最佳答案 sqoop-export就是这样做的。sqoop-export--connectj

Hadoop mysql code section sqoop bigdata

hadoop - httpfs for hadoop apache 下载

我在Centos7操作系统上使用ApacheHadoop-2.7.1。要设置HttpFs，这link建议安装HttpFs。我没有找到任何可用的二进制文件。有没有其他方法可以为Hadoop配置HttpFs？最佳答案 HttpFs包含在ApacheHadoop本身的二进制tarball中。您无需单独下载。配置文件httpfs-env.sh和httpfs-site.xml位于$HADOOP_HOME/etc/hadoop/目录下。启动脚本httpfs.sh在$HADOOP_HOME/sbin/下。要配置HttpFs的嵌入式Tomcat，

hadoop apache code section httpfs

hadoop - 使用 Spark 获取存储在 JSON 中的值列表的统计属性

我使用以下结构以JSON格式存储我的数据:{"generationId":1,"values":[-36.0431,-35.913,...,36.0951]}我想获取文件(generationIds)的平均值之间的间距分布(连续数字之间的差异)。我的zepplein笔记本中的第一行是:importorg.apache.spark.sql.SparkSessionvalwarehouseLocation="/user/hive/warehouse"valspark=SparkSession.builder().appName("test").config("spark.sql.wareh

hadoop Spark section code 34 apache-spark hive apache-zeppelin

hadoop - Hadoop的基本认识

如何在hadoop中设置推测执行？我们需要在哪些配置文件中进行这些更改？请详细说明。推测执行更改应该在名称节点还是数据节点中进行？如果在数据节点中，我们可以将它们设置为特定系统，例如(我的集群中有1-10个系统，我只为2,3个数据节点系统设置推测执行) 最佳答案推测执行在Hadoop中默认开启。要启用/禁用推测执行，请在mapred-site.xml中修改这些属性mapreduce.map.speculativetruemapreduce.reduce.speculativetrue这是一个集群范围的属性，也可以在作业级别设置。i

hadoop 推测 section strong

java - 使用cloudera hadoop java培训项目时加载类失败

我正在使用clouderaquickstart在java中实现一个hadoop项目:我的cloudera-quickstart版本是5.8.0以下是错误消息:SLF4J:Failedtoloadclass"org.slf4j.impl.StaticLoggerBinder".SLF4J:Defaultingtono-operation(NOP)loggerimplementationSLF4J:Seehttp://www.slf4j.org/codes.html#StaticLoggerBinderforfurtherdetails.17/04/0914:11:36WARNutil.N

培训项目 java code slf4 hadoop cloudera cloudera-cdh cloudera-quickstart-vm

hadoop - 权威指南 - 为什么 hdfs 中的 block 这么大

我从权威指南(HDFS概念-block)中看到了以下段落，但无法理解。MapReduce中的映射任务通常一次在一个block上运行，因此如果您的任务太少(少于集群中的节点)，您的作业将比其他方式运行得更慢。我想知道与集群中的节点总数相比，当任务很少时，作业会如何变慢。假设集群中有1000个节点和3个任务(按任务我取block，因为每个block被发送到一个节点用于单个任务)，获得结果所花费的时间总是少于说1000的场景节点和1000个任务对吗？权威指南中给出的段落无法说服我。最佳答案您从书中引用的段落基本上是说“尽可能多地利用节

权威指南 section 1000 block hadoop mapreduce

hadoop - 用户 ALTER TABLE ... CONCATENATE 与 Hive 中的部分匹配分区

我想在Hive中使用ALTERTABLE...CONCATENATE功能，但似乎我必须提供准确的分区名称。例如，我有一个包含两个分区列、日期和组的表。我希望能够做这样的事情:altertablemytablepartition(insert_date='2017-04-11',group='%')CONCATENATE;但是我找不到这样做的方法。最佳答案 Concatenate不支持这个。关于hadoop-用户ALTERTABLE...CONCATENATE与Hive中的部分匹配分区

CONCATENATE hadoop section stackoverflow hive

54 55 565758 59 60