草庐IT

LOAD_FILE

全部标签

hadoop - Hortonworks 数据平台 : High load causes node restart

我已经使用HortonworksDataPlatform2.5设置了一个Hadoop集群。我正在使用1个主节点和5个从(工作)节点。每隔几天,我的一个(或多个)工作节点就会承受高负载,并且似乎会自动重启整个CentOS操作系统。重新启动后,Hadoop组件不再运行,必须通过Amabri管理UI手动重新启动。这里是“崩溃”节点的屏幕截图(大约4小时前在高负载值后重新启动):这是其他“健康”工作节点之一的屏幕截图(所有其他工作节点都具有相似的值):节点在5个工作节点之间交替崩溃,主节点似乎运行没有问题。什么会导致这个问题?这些高负载值从何而来? 最佳答案

hadoop - ifile EBADF : Bad file descriptor while performing matrix addition 上的预读失败

我正在尝试在ApachePig中编写用于矩阵加法的代码。matrixM=LOAD'Mmatrix.txt'USINGPigStorage(',')AS(i,j,v);matrixN=LOAD'Nmatrix.txt'USINGPigStorage(',')AS(i,j,v);unionres=UNIONmatrixM,matrixN;DUMPunionres;res=GROUPunionresBY(i,j);DUMPres;ILLUSTRATEres;final_res=FOREACHresGENERATEgroup.$0ASi,group.$1ASj,SUM(unionres.v)A

java - Cloudera Quickstart VM illegalArguementException : Wrong FS: hdfs: expected: file:

我有一个简单的java代码可以将一个文本文件从本地复制到hdfs。我正在使用cloudera的quickstart虚拟机。Configurationconf=newConfiguration();conf.addResource(newPath("/etc/hadoop/conf/core-site.xml"));conf.addResource(newPath("/etc/hadoop/conf/hdfs-site.xml"));FileSystemfs=FileSystem.get(conf);fs.copyFromLocalFile(newPath("/home/cloudera

hadoop - Flume 假脱机目录源 : Cannot load files larger files

我正在尝试使用flume假脱机目录将数据摄取到HDFS(SpoolDir>MemoryChannel>HDFS)。我正在使用ClouderaHadoop5.4.2。(Hadoop2.6.0,Flume1.5.0)。它适用于较小的文件,但不适用于较大的文件。请在下面找到我的测试场景:大小为KB到50-60MBytes的文件,处理无问题。大于50-60MB的文件,它将大约50MB写入HDFS,然后我发现flumeagent意外退出。水槽日志中没有错误消息。我发现它试图多次创建“.tmp”文件(HDFS),并且每次在意外退出之前写入几兆字节(有时2MB,有时45MB)。一段时间后,最后尝试的

java - Docker 和 Cloudera 快速入门 : How to run own jar-file?

我安装了Docker容器并进行了后续步骤:dockerpullcloudera/quickstart:latestdockerimages#notethehashoftheimageandsubstituteitbelowdockerrun--privileged=true\--hostname=quickstart.cloudera\-t-i${HASH}\/usr/bin/docker-quickstart所以,现在我知道了:Cloudera正在运行。但是我看不到任何本地文件,那么如何加载我自己的文件,尤其是jar文件以使用Hadoop运行它? 最佳答案

apache-spark - Spark 独立集群 :Configuring Distributed File System

我刚刚从Spark本地设置迁移到Spark独立集群。显然,加载和保存文件不再有效。我了解我需要使用Hadoop来保存和加载文件。我的Spark安装是spark-2.2.1-bin-hadoop2.7问题1:我仍然需要单独下载、安装和配置Hadoop以与我的独立Spark集群一起工作,我是否正确?问题2:使用Hadoop运行和使用Yarn运行有什么区别?...哪个更容易安装和配置(假设数据负载相当轻)? 最佳答案 A1。正确的。你提到的包只是打包了指定版本的hadoop客户端,如果你想使用hdfs,你仍然需要安装hadoop。A2。使

java - Hadoop 示例作业在独立模式下失败并显示 : "Unable to load native-hadoop library"

我正在尝试让最简单的Hadoop“helloworld”设置正常工作,但是当我运行以下命令时:hadoopjar/usr/share/hadoop/hadoop-examples-1.0.4.jargrepinputoutput'dfs[a-z.]+'我收到以下警告:12/11/3016:36:40WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable完整的错误跟踪如下:12/11/3016:57:18WARNu

hadoop - 有没有办法在 pig 脚本中检查 "Path or file exists"

在我的hadoop环境中,输出目录是动态创建的。因此,我想动态地读取输出目录,如果存在路径或文件,则执行此操作,否则执行此操作。那么有什么方法可以检查pig脚本中的“路径或文件是否存在”?? 最佳答案 在Pig中,您可以运行shell命令来测试路径是否存在,如果存在则返回该路径,否则返回其他始终可用的空数据路径。然后依赖Pig的参数替换。例如:%declareemptyPath'/user/me/emptyData.csv'%declarerequestedPath'/user/me/realData.csv'%declareact

Hadoop:格式化名称节点时出错 - 'Could not find or load main class namenodes'

在我安装了上传hadoop所需的一切之后(win-7-64位上的unix),我得到了这个错误(粗体):roeygol@roeygol-PC/etc/hadoop-2.5.1/bin$./hdfsnamenodes-formatError:Couldnotfindorloadmainclassnamenodes我按要求定义了所需的节点和所有其他配置,我该如何解决这个问题? 最佳答案 hdfsnamenode-formatits"namenode"not"namenodes" 关于Hadoo

hadoop - 得到错误的 FS : file while running hive query

在hive上运行一个简单的选择查询时我遇到了这个奇怪的错误java.lang.IllegalArgumentException:WrongFS:file://usr/lib/hive/lib/CustomUDFint.jar,expected:file:///atorg.apache.hadoop.fs.FileSystem.checkPath(FileSystem.java:410)atorg.apache.hadoop.fs.RawLocalFileSystem.pathToFile(RawLocalFileSystem.java:56)atorg.apache.hadoop.fs