草庐IT

hadoop - HDFS复制因子是如何决定的?

HDFS中的复制因子必须至少为3。尽管选择它为3的主要目的是容错,并且机架故障的可能性远小于节点故障的可能性,复制因子至少为3背后还有其他原因吗? 最佳答案 复制因子没有理由必须是3,这是hadoop自带的默认值。您可以为HDFS中的每个文件单独设置复制级别。除了容错之外,拥有副本还允许使用相同数据的作业并行运行。此外,如果有数据的副本,hadoop可以尝试运行同一任务的多个副本,并选择最先完成的副本。如果由于某种原因盒子运行缓慢,这很有用。 关于hadoop-HDFS复制因子是如何决定

hadoop - 如何在 Hadoop 中的机器之间传输文件并使用 Pig 搜索字符串

我有两个问题:我有一个很大的记录文件,有几百万条。我需要将此文件从一台机器传输到hadoop集群机器。我猜hadoop中没有scp命令(或者有?)如何将文件传输到hadoop机器?此外,一旦文件位于我的hadoop集群上,我想搜索包含特定字符串的记录,例如“XYZTechnologies”。pig八戒这是怎么做到的?一些示例代码可以帮助我抢先一步。这是我第一次使用Hadoop/Pig。如果这是一个“太基础”的问题,请原谅我。编辑1我尝试了Jagaran的建议,但出现以下错误:2012-03-1804:12:55,655[main]ERRORorg.apache.pig.tools.gr

hadoop - 如何防止将空 Avro 文件提交到 HDFS?

我的工作是在HDFS中创建一个Avro文件,并在该文件中附加数据。然而,偶尔不会有任何数据追加,在这种情况下我不希望应用程序刷新并关闭文件,而是应该检查文件是否为空(但我假设Avro模式将被写入header所以技术上不是一个空文件)并删除该文件,如果它是空的。这对Avro+HDFS库可行吗? 最佳答案 尝试使用LazyOutputFormat在指定作业的输出格式时。它延迟创建输出,这意味着只有在输出存在时才会创建输出文件。所以不要写这样的东西:job.setOutputFormatClass(TextOutputFormat.cla

大数据技术原理与应用 概念、存储、处理、分析和应用(林子雨)——第三章 分布式文件系统HDFS

第三章分布式文件系统HDFS大数据要解决数据存储问题,所以有了分布式文件系统(DFS),但可能不符合当时的一些应用需求,于是谷歌公司开发了GFS(GooglefileSystem)。GFS是闭源的,而HDFS是对GFS的开源实现。1.GFS和DFS有什么区别?GFS(GoogleFileSystem)和DFS(DistributedFileSystem)都是分布式文件系统,但是它们有以下几个不同点:1.设计目标不同:GFS是为了在大规模集群中处理大型文件而设计的,而DFS更侧重于在多个计算机之间共享和存储文件。2.数据复制策略不同:GFS使用了一种称为“三副本策略”的数据复制策略,即将数据分成

json - 将 JSON 数组加载到 Pig 中

我有一个格式如下的json文件[{"id":2,"createdBy":0,"status":0,"utcTime":"Oct14,20144:49:47PM","placeName":"21/F,CunninghamMainRd,SampangiRamaNagarBengaluruKarnatakaIndia","longitude":77.5983817,"latitude":12.9832418,"createdDate":"Sep16,20142:59:03PM","accuracy":5,"loginType":1,"mobileNo":"0000005567"},{"id"

apache - 创建分区 View 时 Hive 出错

我有一个“日志”表,该表当前按年、月和日进行分区。我想在“日志”表的顶部创建一个分区View,但遇到了这个错误:hive>CREATEVIEWlog_viewPARTITIONEDON(pagename,year,month,day)ASSELECTpagename,year,month,day,uid,propertiesFROMlog;FAILED:SemanticException[Error10093]:RightmostcolumnsinviewoutputdonotmatchPARTITIONEDONclause创建分区View的正确方法是什么?

hadoop - 带有存档操作的 Oozie 工作流

我想制作一个oozie工作流,其中成功的最后一步是“存档”结果。shell中的命令是hadooparchive-archiveName=XXX.har-p/some/random/parentdirectorToArhivepathToArchiveDestination我试过以下方法Actionfailed,errormessage[${wf:errorMessage(wf:lastErrorNode())}]我得到的错误类似于以下内容:WARNING:ExceptioninRunloopofthread:mainwithmessage:E0701:XMLschemaerror,cv

hadoop - 在 HDFS 中创建文件但不附加任何内容

我正在使用HTTP源将JSON文件放入HDFS(单节点SANDBOX)。文件在正确的目录中创建,但没有任何内容附加到文件中。在我开始调试HTTP源之前,你能验证我的flume.conf吗?##################################################################Namethecomponentsonthisagent#################################################################hdfs-agent.sources=httpsourcehdfs-agent.sin

hadoop - 无法在 hadoop 文件系统中创建目录

在hadoop文件系统中创建目录时遇到这个问题mkdir:权限被拒绝:user=ubuntu,access=WRITE,inode="/user/ubuntu":hdfs:supergroup:drwxr-xr-x 最佳答案 这可以通过两种方式实现:-1)使用hdfs用户运行命令sudo-uhdfshdfsdfs-mkdir/user/ubuntu/2)使用hdfs用户更改文件夹的所有权,这样您在其中创建目录或使用它时就不会遇到问题。sudo-uhdfshdfsdfs-chowmubuntu:ubuntu/user/ubuntu/现

hadoop - HDFS 行为 : Datanodes up but all data goes to one node (using -copyFromLocal)

我有一个集群配置。主人(也是奴隶)两个奴隶复制因子=1我将一个~9GB的文件movies.txt复制到hdfs中:hadoopdfs-copyFromLocalmovies.txt/input/我观察到一半的block被保存到Master,另一半分布在两个slave上。然后我想到使用以下方法格式化hadoop_stores:stop-all.shrm-rf{hadoop_store}/*hdfsnamenode-formatsshslave1rm-rf{hadoop_store}/*hdfsnamenode-formatexitsshslave2rm-rf{hadoop_store}/