草庐IT

hdfs_clusters

全部标签

python - 通过 Python 处理 HDFS 中的多个文件

我在HDFS中有一个目录,其中包含大约10,000个.xml文件。我有一个python脚本“processxml.py”,它获取一个文件并对其进行一些处理。是否可以在hdfs目录中的所有文件上运行脚本,或者我是否需要先将它们复制到本地才能这样做?例如,当我在本地目录中的文件上运行脚本时,我有:cd/path/to/filesforfilein*.xmldopython/path/processxml.py$file>/path2/$filedone所以基本上,我将如何做同样的事情,但这次文件在hdfs中? 最佳答案 你基本上有两个选

hadoop - 如何使用 pig 从 hdfs 加载推特数据?

我只是使用flume流式传输一些推特数据并将其集群到HDFS现在我尝试将它加载到pig中进行分析。由于默认的JsonLoader函数无法加载数据所以我在谷歌中搜索一些可以加载这种类型的库数据。我找到了这个link并按照那里的说明进行操作。这是结果REGISTER'/home/hduser/Downloads/json-simple-1.1.1.jar';2016-02-2220:54:46,539[main]INFOorg.apache.hadoop.conf.Configuration.deprecation-fs.default.nameisdeprecated.Instead,u

hadoop - Hive CLI 如何从 HDFS 中检索巨大的结果文件?

在我通过CLI执行配置单元查询后,如下所示:$hive-eQUERY>output.txtHive客户端将编译QUERY并将其发送到Hadoop集群。Hadoop执行一些作业并将结果输出到文件(假设仅1个reducer)在HDFS。然后Hive客户端将检索这个单个文件,提取它,并输出到本地STDOUT。流程如下图所示:==============HadoopCluster==============|||||2.outputRESULTasasingle.gzfileatHDFSbecauseof1reducer||||1.QUERY||||3.HiveretrievestheRESU

hadoop - 从以 orc 格式存储在 hdfs 中的文件创建配置单元表

我想知道是否可以从存储在hadoop文件系统(users.tbl)中的ORC格式文件创建一个配置单元表。我读到ORC格式在优化方面比文本格式更好。所以我想知道是否可以使用storedasorctblproperties和location属性创建一个配置单元表,以从hdfs文件创建一个表,但采用orc格式。东西如:createtableifnotexistsusers(USERIDBIGINT,NAMESTRING,EMAILSTRING,CITYSTRING)STOREDASORCTBLPROPERTIES("orc.compress"="SNAPPY")LOCATION'/table

python - 如何在 HDFS 中解压多个 zip 文件

我在HDFS中有多个zip文件,其中包含两种类型的文件(A.csv和B.csv)HDFS位置/data/jan.zip-->containsA.csv&B.csv/data/feb.zip-->containsA.csv&B.csv我想将文件提取到HDFS位置,如下所示/data/jan/A.csv/data/jan/B.csv/data/feb/A.csv/data/feb/B.csv我正在寻找任何技术(spark,pig,hive,..)中类似下面的命令hadoopfs-unziphdfs://..../abc.zip 最佳答案

Python HDFS : Cannot read file

我正在尝试使用pythonas从hdfds读取文件fromhdfs.clientimportClientimportjson,requestsif__name__=='__main__':cl=Client("http://hostName:port")printcl.list("/myDir/")withcl.read("/myDir/myFile.json")asf:printfprintjson.load(f)但是我明白了raiseValueError("NoJSONobjectcouldbedecoded")ValueError:NoJSONobjectcouldbedecod

java - 在 Hadoop 中从 HDFS 读取时的 I/O 时间

我想测量在Hadoop中执行I/O(从HDFS读取)时map和reduce所花费的时间。我正在使用yarn。Hadoop2.6.0。有哪些选择? 最佳答案 如果您需要精确测量-您可以使用btrace,通过mapreduce.{map,reduce}.java.opts将其作为javaagent添加到您的任务中-然后编写脚本来测量您喜欢的任何内容。btrace脚本的样本是here.还有HTrace-这也可能有帮助。 关于java-在Hadoop中从HDFS读取时的I/O时间,我们在Stac

json - 使用 flume 从 twitter 检索数据并以 JSON 格式存储到 hdfs

我正在尝试使用flume从Twitter检索数据并以JSON格式存储到hdfs。数据正在加载到HDFS。但不是JSON格式。我附上从Twitter存储的HDFS文件中的几行:Objavro.schema\E4{"type":"record","name":"Doc","doc":"adoc","fields":[{"name":"id","type":"string"},{"name":"user_friends_count","type":["int","null"]},{"name":"user_location","type":["string","null"]},{"name"

java - 在 HDFS 上 append 到文件的推荐方法是什么?

我无法找到一种安全的方法来append到HDFS中的文件.我正在使用一个小的,3-nodeHadoopcluster(CDHv.5.3.9tobespecific).我们的流程是一个数据流水线,即multi-threaded(8threads)它有一个阶段,将分隔文本行append到HDFS上专用目录中的文件。.我正在使用锁来同步线程对append数据的缓冲写入器的访问。我的第一个问题是总体上决定方法。方法A是打开文件,append到它,然后为append的每一行关闭它。这看起来很慢,而且似乎会产生太多小块,或者至少我在各种帖子中看到了一些这样的情绪。方法B是缓存写入器,但定期刷新它们

hadoop - 什么是 "HDFS write pipeline"?

当我阅读hadoop权威指南时,我停留在以下句子:-writingthereduceoutputdoesconsumenetworkbandwidth,butonlyasmuchasanormalHDFSwritepipelineconsumes.问题:1.能否帮助我更详细地理解上面的句子。2.“HDFS写入管道”是什么意思? 最佳答案 当文件被写入HDFS时,许多与HDFSblock一致性和复制相关的事情正在幕后发生。这个过程的主要IO组件是far复制。还有与注册block的存在和状态的名称节点的双向通信。我认为当它说“写入管道”