草庐IT

HADOOP_NAMENODE_OPTS

全部标签

hadoop - Hadoop 在 N 层架构中的什么位置?

我对Hadoop及其生态系统还很陌生。我想知道Hadoop在哪里以及如何适合典型的N层架构或任何现代架构?从Hadoop获得结果非常棒,但我如何以及以何种方式整理数据结果以在我的表示层上显示它们? 最佳答案 “典型的n层系统”?不在2层客户端服务器中;不在三层。可以将数据的Map/reduce计算添加到任何系统中。Hadoop是集群上的map/reduce,具有基于冗余数据的分布式文件系统。这会让我想到数据的预定批处理。将数据传送到Hadoop的方式可以是实时的,也可以是从事务数据库到报告数据库的批处理ETL过程。这些都不是“典型”

hadoop - 配置单元执行错误

我是avro和hive的新手,在学习它的过程中我有些困惑。使用tblproperties('avro.schema.url'='somewhereinHDFS/categories.avsc')。如果我像这样运行这个create命令createtablecategories(idInt,dep_IdInt,nameString)storedasavrofiletblproperties('avro.schema.url'='hdfs://quickstart.cloudera/user/cloudera/data/retail_avro_avsc/categories.avsc')但为

hadoop - hadoop中local和yarn的区别

我一直在尝试按照here中的说明在单个节点上安装Hadoop.有两组指令,一组用于在本地运行MapReduce作业,另一组用于YARN。在本地运行MapReduce作业和在YARN上运行有什么区别? 最佳答案 如果您使用本地,则map和reduce任务在同一个jvm中运行。通常我们要调试代码的时候会用到这种模式。而如果我们使用MRV2中的yarn资源管理器,mappers和reducers将在不同的节点和不同的jvms中运行,并且在同一节点中运行(如果它是伪分布式模式)。 关于hadoo

hadoop - 如何安装 Hortonworks 的 HDP?

我是这方面的新手,我想知道如何按照下一个规范安装Hortonworks、HDP(http://hortonworks.com/products/data-center/hdp/)提供的解决方案:我有2台虚拟机和另一台要使用的本地机器,我我想在配置ApacheSPARK时将2个虚拟机用作主节点和工作节点。但我的问题是:我必须做什么才能正确安装HDP?我必须在我的本地机器上安装te解决方案并配置ApacheSPARK以将这2个虚拟机用作主节点和工作节点?或者我必须在我拥有的3台机器上安装HDP?我再说一遍,我是这方面的新手,如果您能提供任何答案或评论,这对我都将非常有帮助。非常感谢!

hadoop - pig : CONCAT A relation OUTPUT to another RELATION

对于问题的错误措辞,我们深表歉意。我是stackoverflow的新手,也是PIG的新手,正在尝试自己进行实验。我有一个处理words.t文件和data.txt文件的场景。文字.txtword1word2word3word4数据.txt{"created_at":"18:47:31,SunSep302012","text":"RT@Joey7Barton:..giveaword1aboutwhethertheamericanswinsaRydercup.Imeansurelyhehasslightlymoreimportantmatters.#fami...","user_id":45

hadoop - unix_timestamp 问题

我必须将一个字段填充为9999-12-31,因为我正在使用以下语句。但是当我检查结果时,它给出了9998-12-2700:00:00选择from_unixtime(unix_timestamp('9999-12-31','YYYY-MM-DD'))结果:9998-12-2700:00:00 最佳答案 你应该像这样使用它:Selectfrom_unixtime(unix_timestamp('9999-12-31','yyyy-MM-dd')); 关于hadoop-unix_timesta

linux - bash:bin/hadoop:没有这样的文件或目录(ubuntu 16.04 上的 hadoop 2.7.3)

我尝试在ubuntu16.04桌面上安装hadoop2.7.3。我安装了java并检查了它的版本:hadoop@ubuntu:~$java-versionopenjdkversion"1.8.0_91"OpenJDKRuntimeEnvironment(build1.8.0_91-8u91-b14-3ubuntu1~16.04.1-b14)OpenJDKServerVM(build25.91-b14,mixedmode)我在bashrc中将JAVA_HOME设置为:#HADOOPVARIABLESSTARTexportJAVA_HOME=/usr/lib/jvm/java-1.8.0-

amazon-web-services - 中等 Hadoop/Spark 集群管理

如果这个问题更适合不同的channel,请告诉我,但我想知道推荐的工具是什么,可以在大量远程服务器上安装、配置和部署hadoop/spark。我已经熟悉如何设置所有软件,但我正在尝试确定我应该开始使用什么,这将使我能够轻松地跨大量服务器进行部署。我已经开始研究配置管理工具(即chef、puppet、ansible),但想知道最好的和最用户友好的选项是什么。我也不想使用spark-ec2。我应该创建自己开发的脚本来遍历包含IP的主机文件吗?我应该使用pssh吗?PSCP?等。我希望能够根据需要与尽可能多的服务器进行ssh连接并安装所有软件。 最佳答案

hadoop - 如何使用 Spark 编写 avro 文件?

我有一个Array[Byte]代表一个avro模式。我正在尝试将它作为带有spark的avro文件写入Hdfs。这是代码:valvalues=messages.map(row=>(null,AvroUtils.decode(row._2,topic))).saveAsHadoopFile(outputPath,classOf[org.apache.hadoop.io.NullWritable],classOf[CrashPacket],classOf[AvroOutputFormat[SpecificRecordBase]])row._2是Array[Byte]我收到此错误:org.a

hadoop - 在hadoop中,我只想在每个节点上执行自己自定义的程序

是的,我想在每个hadoop节点上运行我的自定义程序。我想部署Nomapper和reducer。它就像分布式计算系统,不像mapreduce那样工作(但在内部使用hdfs)。我该怎么办? 最佳答案 MapReduce和Tez作业都使用YARN(YetAnotherResourceNegotiator)在所谓的容器中在集群上分布和执行。您也可以自己使用YARN来运行您自己的作业。请看HadoopArchitectureOverview以获得高级概述。 关于hadoop-在hadoop中,我