草庐IT

hdfs-audit

全部标签

hadoop - 无法在从 HDFS 读取 CSV 的 HIVE 中创建表

通过从HDFS读取.csv文件在Hive中创建表时遇到问题。查询如下:CREATEEXTERNALTABLEtestmail(memberIdString,emailString,sentdateString,actiontypeString,actiondateString,campaignidString,campaignnameString)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','LOCATION'/user/hadoop/cloudera/ameeth/ca_email.csv';获取错误。元数据错误:MetaException(messa

java - 在 Java 中尝试从 HDFS 读取文件时出现 "Wrong FS... expected: file:///"

我无法使用Java从HDFS读取文件:StringhdfsUrl="hdfs://:";Configurationconfiguration=newConfiguration();configuration.set("fs.defaultFS",hdfsUrl);FileSystemfs=FileSystem.get(configuration);PathfilePath=newPath(hdfsUrl+"/projects/harmonizome/data/achilles/attribute_list_entries.txt.gz");FSDataInputStreamfsData

hadoop - 如何在 Ubuntu 14.04 上挂载 HDFS

所以,我无法在Ubuntu14.04上挂载HDFS。Mucommander不工作,fuse不工作,有人可以用图像解释我或给我一些教程。谢谢,最好的问候。 最佳答案 我今天使用instructionsonClouderasite成功完成了它wgethttp://archive.cloudera.com/cdh5/one-click-install/trusty/amd64/cdh5-repository_1.0_all.debsudodpkg-icdh5-repository_1.0_all.debsudoapt-getupdates

hadoop - hadoop HDFS中有没有ln

hadoopHDFS中是否有ln-s?例如:我在HDFS中有10个文件/user/hadoop/input,即1.txt,2.txt...10.txtHDFS中的另一个目录是/user/hadoop/test我只想将1个文件从/user/hadoop/input/1.txt复制到/user/hadoop/test/1.txt。最简单的方法是使用hadoopdfs-cp/user/hadoop/1.txt/user/hadoop/test。但它会花费更多的时间和磁盘空间。有没有类似shell的方式比如hadoopdfs-ln/user/hadoop/1.txt/user/hadoop/t

bash - 循环遍历 HDFS 目录中的文件

我需要遍历Hadoop文件系统中的所有csv文件。我可以用列出HDFS目录中的所有文件>hadoopfs-ls/path/to/directoryFound2itemsdrwxr-xr-x-hadoophadoop22016-10-1216:20/path/to/directory/tmp-rwxr-xr-x3hadoophadoop46919459272016-10-1219:37/path/to/directory/myfile.csv并且可以使用遍历标准目录中的所有文件forfilenamein/path/to/another/directory/*.csv;doecho$fil

hadoop - hadoop hdfs中的/tmp目录是什么?

我有4个数据节点的集群,每个节点上的hdfs结构如下我面临磁盘空间问题,您可以看到来自hdfs的/tmp文件夹占用了更多空间(217GB)。所以我试图调查/tmp文件夹中的数据。我发现了以下临时文件。我访问了这些临时文件夹,每个文件夹都包含一些大小为10gb到20gb的部分文件。我想清除这个/tmp目录。谁能告诉我删除这些tmp文件夹或零件文件的后果。它会影响我的集群吗? 最佳答案 HDFS/tmp目录主要用作mapreduce操作时的临时存储。Mapreduce工件、中间数据等将保存在此目录下。当mapreduce作业执行完成时,

hadoop - 从 HDFS 导入数据到 HBase (cdh3u2)

我已经安装了hadoop和hbasecdh3u2。在hadoop中,我在路径/home/file.txt中有一个文件。它有这样的数据one,1two,2three,3我想将这个文件导入到hbase中。其中,第一个字段应解析为字符串,第二个字段应解析为整数,然后应将其插入hbase。帮我做这个a提前致谢.... 最佳答案 我喜欢使用ApachePig来摄取HBase,因为它简单、直接且灵活。这是一个Pig脚本,可以在您创建表和列族后为您完成这项工作。要创建表和列族,您需要:$hbaseshell>create'mydata','myc

hadoop - HDFS_NAMENODE_USER、HDFS_DATANODE_USER 和 HDFS_SECONDARYNAMENODE_USER 未定义

我是hadoop新手。我正在尝试以伪分布式模式在我的笔记本电脑中安装hadoop。我使用root用户运行它,但出现以下错误。root@debdutta-Lenovo-G50-80:~#$HADOOP_PREFIX/sbin/start-dfs.shWARNING:HADOOP_PREFIXhasbeenreplacedbyHADOOP_HOME.UsingvalueofHADOOP_PREFIX.Startingnamenodeson[localhost]ERROR:AttemptingtooperateonhdfsnamenodeasrootERROR:butthereisnoHDF

hadoop - 在 hdfs 中重命名目录

我需要重命名hdfs中的一个目录。那是什么命令?hadoopfs-mv上述命令将src文件夹移动到dest文件夹。相反,我希望将src文件夹重命名为dest。 最佳答案 rename不在hadoop中,但是可以移动,hadoopfs-mv旧名新名 关于hadoop-在hdfs中重命名目录,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/27286946/

hadoop - HDFS 中的高吞吐量与低延迟

我试图用自己的话来定义HDFS中高吞吐量与低延迟的含义,并提出了以下定义:HDFSisoptimizedtoaccessbatchesofdatasetquicker(highthroughput),ratherthenparticularrecordsinthatdataset(lowlatency)有意义吗?:)谢谢! 最佳答案 我认为您所描述的更像是针对不同访问模式(顺序、批处理与随机访问)进行优化之间的差异,而不是最纯粹意义上的吞吐量和延迟之间的差异。当我想到一个高延迟系统时,我并没有考虑我正在访问的是哪条记录,而是访问任何