草庐IT

hdfs_clusters

全部标签

csv - cloudera quick start 使用终端加载 csv 表 hdfs

我对这一切还很陌生,因为我才上第二个学期,我只需要帮助来理解我需要执行的命令。我正在尝试使用终端将本地csv文件加载到cloudera上的hdfs。我必须使用这些数据并与Pig一起完成一项任务。我已经尝试了所有方法,但它仍然给我'nosuchfileordirectory'。我关闭了安全模式,检查了目录,甚至确保可以读取文件。以下是我尝试加载数据的命令:hadoopfs-copyFromLocal2008.csvhdfsdfs-copyFromLocal2008.csvhdfsdfs-copyFromLocal2008.csv/user/roothdfsdfs-copyFromLoca

bash - 在 HDFS : How to check if 2 directories have same parent directory

是否有HDFS命令来检查HDFS中的2个目录是否具有共同的父目录。例如:$hadoopfs-ls-R/user/username/data//user/username/data/LIST_1539724717/SUBLIST_1533057294,/user/username/data/LIST_1539724717/SUBLIST_1533873826/UI,/user/username/data/LIST_1539724717/SUBLIST_1533873826/NEWDATA/A,/user/username/data/LIST_1539724717/SUBLIST_1533

hadoop - 是否可以配置clickhouse数据存储为hdfs

目前,clickhouse将数据存储在/var/lib/clickhouse路径,我读过它不支持深度存储。顺便问一下,它在config.xml文件中是否有任何hdfs设置的配置? 最佳答案 将clickhousedatadir存储到HDFS中,这是一个非常糟糕的主意;)因为HDFS不是posix兼容的文件系统,clickhouse在这个部署变体上会非常慢你可以使用https://github.com/jaykelin/clickhouse-hdfs-loader将数据从HDFS加载到clickhouse,并在不久的将来https:/

scala - 如何使用 Spark 读取不断更新的 HDFS 目录并根据字符串(行)将输出拆分为多个 HDFS 文件?

详细场景->HDFS目录,其中“提供”了多种类型的银行账户事件的新日志数据。每行代表一个随机事件类型,每行(String)包含文本“ActivityType=”。在Spark-Scala中,读取HDFS目录中的输入文件并输出多个HDFS文件的最佳方法是什么,其中每个ActivityType都写入其自己的新文件? 最佳答案 改编为声明的第一个答案:Thelocationofthe"key"stringisrandomwithintheparentString,theonlythingthatisguaranteedisthatitco

apache-spark - 我如何从 Spark 写入 HDFS 以更快地访问该数据?

假设我不是像Hive或HBase这样的工具(Spark无论如何都无法使用Hive索引进行优化),将数据写入HDFS以便更快地访问该数据的最佳方式是什么。我的想法是保存许多不同的文件,其名称由键标识。假设我们有一个由名字和姓氏识别的人的数据库。也许我可以用名字和姓氏的首字母保存文件。这样,我们将有26x26=676个文件。因此,例如,如果我们想查看AlanWalker的记录,我们只需要加载文件AW.这是做这种事情的好方法还是有更好的方法? 最佳答案 我相信索引是您所需要的。在HDFS中和在数据库中一样,索引在插入时有一些开销,但查询速

apache-spark - DCOS 集群上的 Spark 提交失败,出现 java.net.UnknownHostException : hdfs

我正在DCOS集群上以集群/休息模式运行spark-submit:$./spark-submit--deploy-modecluster--mastermesos://localhost:7077--confspark.master.rest.enabled=true--confspark.mesos.uris=http://api.hdfs.marathon.l4lb.thisdcos.directory/v1/endpoints/hdfs-site.xml,http://api.hdfs.marathon.l4lb.thisdcos.directory/v1/endpoints/c

Hadoop HDFS : Read/Write parallelism?

在网上找不到足够的信息所以在这里问:假设我正在将一个巨大的文件写入磁盘,数百TB,这是mapreduce(或spark或其他)的结果。mapreduce如何将这样的文件高效地(可能是并行的?)写入HDFS,以便稍后以并行方式读取?我的理解是HDFS只是基于block(例如128MB)。因此,为了写入第二个block,您必须已经写入了第一个block(或者至少确定哪些内容将进入block1)。假设它是一个CSV文件,文件中的一行很可能会跨越两个block——我们如何将这样的CSV读取到mapreduce中的不同映射器?它是否必须执行一些智能逻辑来读取两个block、连接它们并读取正确的行

hadoop - 通过 WebHDFS API 对 HDFS 进行用户访问控制

是否可以在HDFS的文件级别进行用户访问控制?目前,每个人都可以通过点击像http:///webhdfs/v1/xxx.txt?op=OPEN这样的链接来访问数据。.我可以设置特定的人群,他们只能访问特定的文件或目录吗?目的是不让其他人访问不属于他们的文件。如果不能在HDFS上设置,有什么建议吗? 最佳答案 当安全关闭时,经过身份验证的用户是在user.name查询参数中指定的用户名。如果未设置user.name参数,服务器可能会将经过身份验证的用户设置为默认Web用户(如果有),或者返回错误响应。启用安全性后,身份验证由Hadoo

rest - 是否可以构建查询HDFS数据的REST接口(interface)?

我们目前正在对我们的HDFS集群执行各种转换。作为堆栈的新手,我被告知转换后的数据以容器的形式以二进制格式存储。目前,查询此数据的唯一方法是通过CLI通过密集命令。我的问题是——是否可以构建一个RESTful接口(interface)来搜索这些容器中的数据?解密后的数据为JSON格式。我这样做的原因是为了扩展测试——如果我可以以可读、可解析的格式(而不是二进制)检索数据,我就可以创建可以根据更新触发的自动测试Hook。然后可以轻松地根据源验证更改。 最佳答案 一切皆有可能™“以容器的形式”是很不明确的。“容器”意味着很多东西——YA

hadoop - 目录文件未使用命令“hadoop fs -put <my local path> <hdfs path> 复制到 HDFS

我正在通过给出以下命令将本地系统中的pig处理文件复制到HDFS路径(链接到HIVE表),但它没有复制。第一步:数据在我的本地路径[root@quickstartplantoutput]#lltotal4-rw-r--r--1rootroot1469Dec302:37part-m-00000-rw-r--r--1rootroot0Dec302:37_SUCCESS[root@quickstartplantoutput]#pwd/home/cloudera/Desktop/dealer/plantoutputStep2:应用命令后是这样的[root@quickstartplantoutp