hdfs_clusters

csv - cloudera quick start 使用终端加载 csv 表 hdfs

我对这一切还很陌生，因为我才上第二个学期，我只需要帮助来理解我需要执行的命令。我正在尝试使用终端将本地csv文件加载到cloudera上的hdfs。我必须使用这些数据并与Pig一起完成一项任务。我已经尝试了所有方法，但它仍然给我'nosuchfileordirectory'。我关闭了安全模式，检查了目录，甚至确保可以读取文件。以下是我尝试加载数据的命令:hadoopfs-copyFromLocal2008.csvhdfsdfs-copyFromLocal2008.csvhdfsdfs-copyFromLocal2008.csv/user/roothdfsdfs-copyFromLoca

bash - 在 HDFS : How to check if 2 directories have same parent directory

是否有HDFS命令来检查HDFS中的2个目录是否具有共同的父目录。例如:$hadoopfs-ls-R/user/username/data//user/username/data/LIST_1539724717/SUBLIST_1533057294,/user/username/data/LIST_1539724717/SUBLIST_1533873826/UI,/user/username/data/LIST_1539724717/SUBLIST_1533873826/NEWDATA/A,/user/username/data/LIST_1539724717/SUBLIST_1533

directories directory 1539724717 username SUBLIST bash shell hadoop hdfs

hadoop - 是否可以配置clickhouse数据存储为hdfs

目前，clickhouse将数据存储在/var/lib/clickhouse路径，我读过它不支持深度存储。顺便问一下，它在config.xml文件中是否有任何hdfs设置的配置？最佳答案将clickhousedatadir存储到HDFS中，这是一个非常糟糕的主意；)因为HDFS不是posix兼容的文件系统，clickhouse在这个部署变体上会非常慢你可以使用https://github.com/jaykelin/clickhouse-hdfs-loader将数据从HDFS加载到clickhouse，并在不久的将来https:/

clickhouse hadoop https section hdfs

scala - 如何使用 Spark 读取不断更新的 HDFS 目录并根据字符串(行)将输出拆分为多个 HDFS 文件？

详细场景->HDFS目录，其中“提供”了多种类型的银行账户事件的新日志数据。每行代表一个随机事件类型，每行(String)包含文本“ActivityType=”。在Spark-Scala中，读取HDFS目录中的输入文件并输出多个HDFS文件的最佳方法是什么，其中每个ActivityType都写入其自己的新文件？最佳答案改编为声明的第一个答案:Thelocationofthe"key"stringisrandomwithintheparentString,theonlythingthatisguaranteedisthatitco

HDFS scala ActivityType section 34 apache-spark hadoop spark-streaming

apache-spark - 我如何从 Spark 写入 HDFS 以更快地访问该数据？

假设我不是像Hive或HBase这样的工具(Spark无论如何都无法使用Hive索引进行优化)，将数据写入HDFS以便更快地访问该数据的最佳方式是什么。我的想法是保存许多不同的文件，其名称由键标识。假设我们有一个由名字和姓氏识别的人的数据库。也许我可以用名字和姓氏的首字母保存文件。这样，我们将有26x26=676个文件。因此，例如，如果我们想查看AlanWalker的记录，我们只需要加载文件AW.这是做这种事情的好方法还是有更好的方法？最佳答案我相信索引是您所需要的。在HDFS中和在数据库中一样，索引在插入时有一些开销，但查询速

apache-spark apache section strong HDFS hadoop

apache-spark - DCOS 集群上的 Spark 提交失败，出现 java.net.UnknownHostException : hdfs

我正在DCOS集群上以集群/休息模式运行spark-submit:$./spark-submit--deploy-modecluster--mastermesos://localhost:7077--confspark.master.rest.enabled=true--confspark.mesos.uris=http://api.hdfs.marathon.l4lb.thisdcos.directory/v1/endpoints/hdfs-site.xml,http://api.hdfs.marathon.l4lb.thisdcos.directory/v1/endpoints/c

UnknownHostException apache-spark java spark hdfs hadoop mesos dcos

Hadoop HDFS : Read/Write parallelism?

在网上找不到足够的信息所以在这里问:假设我正在将一个巨大的文件写入磁盘，数百TB，这是mapreduce(或spark或其他)的结果。mapreduce如何将这样的文件高效地(可能是并行的？)写入HDFS，以便稍后以并行方式读取？我的理解是HDFS只是基于block(例如128MB)。因此，为了写入第二个block，您必须已经写入了第一个block(或者至少确定哪些内容将进入block1)。假设它是一个CSV文件，文件中的一行很可能会跨越两个block——我们如何将这样的CSV读取到mapreduce中的不同映射器？它是否必须执行一些智能逻辑来读取两个block、连接它们并读取正确的行

parallelism Hadoop section block hdfs

hadoop - 通过 WebHDFS API 对 HDFS 进行用户访问控制

是否可以在HDFS的文件级别进行用户访问控制？目前，每个人都可以通过点击像http:///webhdfs/v1/xxx.txt?op=OPEN这样的链接来访问数据。.我可以设置特定的人群，他们只能访问特定的文件或目录吗？目的是不让其他人访问不属于他们的文件。如果不能在HDFS上设置，有什么建议吗？最佳答案当安全关闭时，经过身份验证的用户是在user.name查询参数中指定的用户名。如果未设置user.name参数，服务器可能会将经过身份验证的用户设置为默认Web用户(如果有)，或者返回错误响应。启用安全性后，身份验证由Hadoo

WebHDFS hadoop section code hdfs

rest - 是否可以构建查询HDFS数据的REST接口(interface)？

我们目前正在对我们的HDFS集群执行各种转换。作为堆栈的新手，我被告知转换后的数据以容器的形式以二进制格式存储。目前，查询此数据的唯一方法是通过CLI通过密集命令。我的问题是——是否可以构建一个RESTful接口(interface)来搜索这些容器中的数据？解密后的数据为JSON格式。我这样做的原因是为了扩展测试——如果我可以以可读、可解析的格式(而不是二进制)检索数据，我就可以创建可以根据更新触发的自动测试Hook。然后可以轻松地根据源验证更改。最佳答案一切皆有可能™“以容器的形式”是很不明确的。“容器”意味着很多东西——YA

interface rest section 容器 stackoverflow hadoop hdfs

hadoop - 目录文件未使用命令“hadoop fs -put <my local path> <hdfs path> 复制到 HDFS

我正在通过给出以下命令将本地系统中的pig处理文件复制到HDFS路径(链接到HIVE表)，但它没有复制。第一步:数据在我的本地路径[root@quickstartplantoutput]#lltotal4-rw-r--r--1rootroot1469Dec302:37part-m-00000-rw-r--r--1rootroot0Dec302:37_SUCCESS[root@quickstartplantoutput]#pwd/home/cloudera/Desktop/dealer/plantoutputStep2:应用命令后是这样的[root@quickstartplantoutp

amp hadoop plantoutput code section hive hdfs

125 126 127128129 130 131