HADOOP_NAMENODE_OPTS

hadoop - Hadoop 在 N 层架构中的什么位置？

我对Hadoop及其生态系统还很陌生。我想知道Hadoop在哪里以及如何适合典型的N层架构或任何现代架构？从Hadoop获得结果非常棒，但我如何以及以何种方式整理数据结果以在我的表示层上显示它们？最佳答案 “典型的n层系统”？不在2层客户端服务器中；不在三层。可以将数据的Map/reduce计算添加到任何系统中。Hadoop是集群上的map/reduce，具有基于冗余数据的分布式文件系统。这会让我想到数据的预定批处理。将数据传送到Hadoop的方式可以是实时的，也可以是从事务数据库到报告数据库的批处理ETL过程。这些都不是“典型”

hadoop section 典型 database-design architecture hadoop2 bigdata

hadoop - 配置单元执行错误

我是avro和hive的新手，在学习它的过程中我有些困惑。使用tblproperties('avro.schema.url'='somewhereinHDFS/categories.avsc')。如果我像这样运行这个create命令createtablecategories(idInt,dep_IdInt,nameString)storedasavrofiletblproperties('avro.schema.url'='hdfs://quickstart.cloudera/user/cloudera/data/retail_avro_avsc/categories.avsc')但为

配置单 hadoop code schema avro apache-hive

hadoop - hadoop中local和yarn的区别

我一直在尝试按照here中的说明在单个节点上安装Hadoop.有两组指令，一组用于在本地运行MapReduce作业，另一组用于YARN。在本地运行MapReduce作业和在YARN上运行有什么区别？最佳答案如果您使用本地，则map和reduce任务在同一个jvm中运行。通常我们要调试代码的时候会用到这种模式。而如果我们使用MRV2中的yarn资源管理器，mappers和reducers将在不同的节点和不同的jvms中运行，并且在同一节点中运行(如果它是伪分布式模式)。关于hadoo

hadoop local section 中运 mapreduce

hadoop - 如何安装 Hortonworks 的 HDP？

我是这方面的新手，我想知道如何按照下一个规范安装Hortonworks、HDP(http://hortonworks.com/products/data-center/hdp/)提供的解决方案:我有2台虚拟机和另一台要使用的本地机器，我我想在配置ApacheSPARK时将2个虚拟机用作主节点和工作节点。但我的问题是:我必须做什么才能正确安装HDP？我必须在我的本地机器上安装te解决方案并配置ApacheSPARK以将这2个虚拟机用作主节点和工作节点？或者我必须在我拥有的3台机器上安装HDP？我再说一遍，我是这方面的新手，如果您能提供任何答案或评论，这对我都将非常有帮助。非常感谢!

Hortonworks hadoop blockquote ambari section apache-spark configuration virtual

hadoop - pig : CONCAT A relation OUTPUT to another RELATION

对于问题的错误措辞，我们深表歉意。我是stackoverflow的新手，也是PIG的新手，正在尝试自己进行实验。我有一个处理words.t文件和data.txt文件的场景。文字.txtword1word2word3word4数据.txt{"created_at":"18:47:31,SunSep302012","text":"RT@Joey7Barton:..giveaword1aboutwhethertheamericanswinsaRydercup.Imeansurelyhehasslightlymoreimportantmatters.#fami...","user_id":45

RELATION 34 word code hadoop apache-pig epoch

hadoop - unix_timestamp 问题

我必须将一个字段填充为9999-12-31，因为我正在使用以下语句。但是当我检查结果时，它给出了9998-12-2700:00:00选择from_unixtime(unix_timestamp('9999-12-31','YYYY-MM-DD'))结果:9998-12-2700:00:00 最佳答案你应该像这样使用它:Selectfrom_unixtime(unix_timestamp('9999-12-31','yyyy-MM-dd')); 关于hadoop-unix_timesta

unix_timestamp timestamp section hadoop hive

linux - bash:bin/hadoop:没有这样的文件或目录(ubuntu 16.04 上的 hadoop 2.7.3)

我尝试在ubuntu16.04桌面上安装hadoop2.7.3。我安装了java并检查了它的版本:hadoop@ubuntu:~$java-versionopenjdkversion"1.8.0_91"OpenJDKRuntimeEnvironment(build1.8.0_91-8u91-b14-3ubuntu1~16.04.1-b14)OpenJDKServerVM(build25.91-b14,mixedmode)我在bashrc中将JAVA_HOME设置为:#HADOOPVARIABLESSTARTexportJAVA_HOME=/usr/lib/jvm/java-1.8.0-

hadoop ubuntu code pre linux bash java-home

amazon-web-services - 中等 Hadoop/Spark 集群管理

如果这个问题更适合不同的channel，请告诉我，但我想知道推荐的工具是什么，可以在大量远程服务器上安装、配置和部署hadoop/spark。我已经熟悉如何设置所有软件，但我正在尝试确定我应该开始使用什么，这将使我能够轻松地跨大量服务器进行部署。我已经开始研究配置管理工具(即chef、puppet、ansible)，但想知道最好的和最用户友好的选项是什么。我也不想使用spark-ec2。我应该创建自己开发的脚本来遍历包含IP的主机文件吗？我应该使用pssh吗？PSCP？等。我希望能够根据需要与尽可能多的服务器进行ssh连接并安装所有软件。最佳答案

amazon-web-services services section stackoverflow 的 hadoop apache-spark amazon-ec2

hadoop - 如何使用 Spark 编写 avro 文件？

我有一个Array[Byte]代表一个avro模式。我正在尝试将它作为带有spark的avro文件写入Hdfs。这是代码:valvalues=messages.map(row=>(null,AvroUtils.decode(row._2,topic))).saveAsHadoopFile(outputPath,classOf[org.apache.hadoop.io.NullWritable],classOf[CrashPacket],classOf[AvroOutputFormat[SpecificRecordBase]])row._2是Array[Byte]我收到此错误:org.a

编写 hadoop apache org java apache-spark avro spark-avro

hadoop - 在hadoop中，我只想在每个节点上执行自己自定义的程序

是的，我想在每个hadoop节点上运行我的自定义程序。我想部署Nomapper和reducer。它就像分布式计算系统，不像mapreduce那样工作(但在内部使用hdfs)。我该怎么办？最佳答案 MapReduce和Tez作业都使用YARN(YetAnotherResourceNegotiator)在所谓的容器中在集群上分布和执行。您也可以自己使用YARN来运行您自己的作业。请看HadoopArchitectureOverview以获得高级概述。关于hadoop-在hadoop中，我

自定 hadoop section mapreduce distributed-computing

44 45 464748 49 50