Hdfs

python - 过滤器生成的 PySpark DataFrame - 它存储在哪里？

对于任何软件架构师来说，这可能是一个基本问题，但我对这个概念感到困惑。假设我有一个存储在hdfs上的大型SparkDataFrame。我现在做这样的过滤操作:df_new=my_big_hdfs_df.where("my_column='testvalue'")print(type(df_new))class'pyspark.sql.dataframe.DataFrame'>df_new到底存储在哪里？如果这是普通的python，我会猜测在内存中的某个地方。但PySpark也是如此吗？或者它只是某种引用？它是否保存在hdfs中某处的磁盘上？最佳答案

hadoop - 如何将 pyspark 输出写入 impala 表？

我将pyspark用于我的问题陈述，在这里，我想合并我的输出并将其作为我的其他模型的输入。但是在hdfs中，我的输出被分成几部分，因此很难将它们组合起来。所以我想将输出结果直接存储到impala表中，我该怎么做呢？最佳答案要将存储在HDFS中的文件内容公开为表，您可以定义一个外部表:CREATEEXTERNALTABLEtable_name(column_1string,...)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'STOREDASTEXTFILELOCATION'/some/path/

pyspark hadoop section strong code hdfs bigdata impala

hadoop - 我可以将备用名称节点添加到现有的 Hadoop 集群中吗(带有名称节点和辅助名称节点)

我有Hadoop2.7.2设置，其中Namenode和辅助Namenode节点与几个数据节点一起运行。namenode失败后(只是重新启动)，我意识到Secondarynamenode并不像我想的那样是冗余的namenode。所以问题是，我可以使我的集群高可用并添加备用名称节点而不从名称节点中删除现有元数据吗？最佳答案您需要一个Zookeeper集群，但是可以，您可以将名称节点添加到enableHighAvailability 关于hadoop-我可以将备用名称节点添加到现有的Had

辅助 hadoop section namenode hdfs hadoop2

java - HDFS 授予对文件及其所有目录的权限

我在HDFS中有以下数据(2个文件):/a/b/c/f1.txt/f2.txt我想将f1.txt和f2.txt的权限更改为644:例如hadoopfs-chmod644/a/b/c/*.txt但是，为了真正授予对这些文件的访问权限，我需要将/b和/c的权限更改为755:+x到包含文件的目录。注意:我不拥有/a并且它已经是世界可读的。是否有hadoopfs命令让我这样做？Java/Scala代码怎么样？最佳答案您可以使用acls为此:授予用户读写和执行权限hdfsdfs-setfacl-m-Ruser:UserName:rwx/a

及其 java code setfacl hadoop scala hdfs hadoop2

ubuntu - 如何将 -ls 输出保存到 hdfs 目录

hadoopfs-ls/drwxrwxrwx-hadoopprofessor02018-03-1206:51/dir1drwxr-xr-x-hadoopsupergroup02018-04-0409:02/dir2drwxrwxrwx-hadoophadoop02018-04-0405:55/dir3drwx-------hadoopsupergroup02018-03-1207:01/tmpdrwxrwxrwx-hadoophadoop02018-03-1803:49/userdrwxr-xr-x-hadoopsupergroup02018-04-0408:36/photo我想把ls

ubuntu hdfs hadoop section code command-line

hadoop - oozie 工作流应该只在有可用的输入 hdfs 文件时运行

我设置了协调器和值和超时。协调器工作正常，因为它会检查输入文件是否在hdfs位置可用，只有在它运行工作流时才会超时。我在工作流中需要相同的行为，就像如果我只运行一个没有协调器的工作流，那么工作流的行为应该与上述协调器的行为相同。我试过mapred.input.dir但工作流程成功运行。有没有其他方法可以达到同样的效果。工作流是一个简单的helloworld作业，而不是map-reduce作业。最佳答案 Wrokflow用于按需运行作业。您正在寻找的功能在Workflow中不可用。该功能由协调器提供。

hadoop oozie 协调器 section code workflow oozie-coordinator

hadoop - 我想知道有什么方法我只能在 MapReduce(Hadoop) 中选择每一行的最大值

我低于表示标题、月份和标题(键)和月份(键)组合的值(总和)的值。我只想在标题、月份和值中选择具有最高值的一行，例如，“Fly08(09,11)4或Go0645，正如您在我的实际输出中看到的那样。如果可能的话，请赐教。如果您有任何疑问，请告诉我，我会尽力澄清。Fly,07,1Fly,08,4Fly,09,4Fly,10,1Fly,11,4Fly,12,2GentleBen,05,2GentleBen,06,3GentleBen,07,2GentleBen,08,2GentleBen,09,2Germanaircraftgunsandcannons,11,1Go,04,20Go,05,2

中选 MapReduce Text class section hadoop hdfs

hadoop - 我是 hadoop 的新手，正在学习基础知识。我最近安装了沙箱，但我无法运行 Hadoop 命令

[root@sandbox-hdp~]#hdfsdfs-lsls:`.':Nosuchfileordirectory[root@sandbox-hdp~]#hdfsdfs-mkdirmayankmkdir:`mayank':Nosuchfileordirectory[root@sandbox-hdp~]# 最佳答案 hdfsdfs-ls通过以root身份运行它，你没有/user/root文件夹，你必须创建它。hdfsdfs-mkdirmayank您没有/user/root/文件夹，因此无法在其中创建目录。你应该改为执行hdfsdfs

沙箱 hadoop code section root hdfs

java - Hadoop 身份验证与 Kerberos 错误

我正在尝试使用以下方法在HDFS中创建文件:importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;为此，我添加了如下配置:Configurationconfiguration=newConfiguration();configuration.set("fs.hdfs.impl",org.apache.hadoop.hdfs.DistributedFileSystem.class.getName());configur

Kerberos Hadoop code section configuration java hdfs

hadoop - 如何使用 kafka-connect-hdfs 将数据从 kafka avro 控制台流式传输到 HDFS？

我正在尝试运行kafka-connect-hdfs但没有成功。我已将以下行添加到.bash_profile并运行“source~/.bash_profile”exportLOG_DIR=~/logsquickstart-hdfs.properties配置文件为name=hdfs-sinkconnector.class=io.confluent.connect.hdfs.HdfsSinkConnectortasks.max=1hdfs.url=xxx.xxx.xxx.xxx:xxxx#placeholderflush.size=3hadoop.conf.dir=/etc/hadoop/c

流式 kafka connect java hdfs hadoop apache-kafka apache-kafka-connect confluent-platform

13 14 151617 18 19