hdfs_rtp

hadoop - 如何使用spark将数据保存在HDFS中？

我想使用SparkStreaming从Kafka检索数据。现在，我想将我的数据保存在远程HDFS中。我知道我必须使用函数saveAsText。但是，我不知Prop体如何指定路径。如果我这样写是否正确:myDStream.foreachRDD(frm->{frm.saveAsTextFile("hdfs://ip_addr:9000//home/hadoop/datanode/myNewFolder");});ip_addr是我的hdfs远程服务器的IP地址。/home/hadoop/datanode/是我安装hadoop时创建的DataNodeHDFS目录(不知道是不是一定要指定这个目

linux - 如果本地节点上也存在相同的路径，HDFS 会感到困惑

我使用的是CDH5.4.1集群提供的Hadoop。我面临的问题是HDFS上有一个路径为/tmp/data的目录它有一些csv文件说abc.csv现在，这个相同的文件夹也存在于节点(比如节点1)的一个本地linuxfs上，并且包含一个csv文件xyz.csv。当我从node1运行以下命令时:hdfsdfs-ls/tmp/data/*.csv我希望输出显示abc.csv但是我收到一条错误消息ls:`/tmp/data/xyz.csv':Nosuchfileordirectory当在本地linuxfs上没有相同文件夹路径的其他节点上运行时，相同的命令会给出正确的输出。我的理解是，因为我正在使

困惑感到 csv section data linux hadoop hdfs hadoop2

hadoop - HDFS系统在磁盘上的物理路径在哪里？

我是Hadoop和HBase的初学者，为了学习下载了一个HBase的exampleproject，好像是用MR把已有的数据导入HBase。本例将.txt数据文件放在HDFS这个路径下:/user/root/uid_details.txt，点击'Import'按钮时，应该将uid_details.txt中的数据导入到HBase中。问题是，我不知道/user/root/在我磁盘上的实际物理路径，所以我不知道uid_details.txt应该放在我磁盘上的什么位置。我的core-site.xml和hdfs-site.xml:Screenshotsofcore-site.xmlandhdfs-

hadoop HDFS section code hbase

hadoop - 在 linux 上更改 hdfs 中现有用户的权限

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。这个问题似乎不是关于aspecificprogrammingproblem,asoftwarealgorithm,orsoftwaretoolsprimarilyusedbyprogrammers的.如果您认为这个问题是关于anotherStackExchangesite的主题，您可以发表评论，说明问题可能在哪里得到解答。关闭5年前。Improvethisquestion我是Hadoop的新手，遇到了一个我不确定如何解决的问题。我有两个现有的HDFS用户:一个叫hdfs，一个叫user1。当我以use

hadoop linux section class noreferrer hdfs

linux - 将数据从一个 HDFS 目录连续复制到另一个目录

我在hdfs中有一个目录，它每2天填充一次文件。我想将此目录中的所有文件复制到另一个目录中，这样如果今天有新文件出现，我希望将该文件复制到重复的目录中。我们如何在Hdfs中做到这一点。我知道我们可以在linux中使用rsync来做到这一点。Hdfs也有这样的方法吗？最佳答案不，HDFS没有可用的文件同步方法。您必须手动或通过任何调度程序(cron)执行hdfsdfs-cp或hadoopdistcp。如果文件数量较多，优先使用distcphadoopdistcp-update如果源和目标的大小、block大小或校验和不同，-upd

linux HDFS code section distcp hadoop rsync

python - 如何使用python读取HDFS目录中的文件

我正在尝试使用Python读取HDFS目录中的文件。我使用了以下代码，但出现错误。代码:cat=Popen(["hadoop","fs","-cat","/user/cloudera/CCMD"],stdout=PIPE)错误:cat:`/user/cloudera/CCMD':IsadirectoryTraceback(mostrecentcalllast):File"hrkpat.py",line6,intree=ET.parse(cat.stdout)File"/usr/lib64/python2.6/xml/etree/ElementTree.py",line862,inpar

python HDFS strong section code hadoop

azure - 在 Azure SQL 数据仓库中使用 Polybase 访问 Hadoop (Azure IaaS) HDFS 文件

我正在尝试使用AzureSQLDW中的Polybase访问ClouderaCluster(在Azure中作为IaaS提供)中HDFS中的分隔文件，但是我遇到了以下错误:Msg105019,Level16,State1,Line40EXTERNALTABLEaccessfailedduetointernalerror:'JavaexceptionraisedoncalltoHdfsBridge_IsDirExist.Javaexceptionmessage:CallFromDB55/10.0.0.59to10...:8020failedonsockettimeoutexception:o

Azure Polybase section blockquote hadoop hdfs azure-sqldw

hadoop - HDFS 有获取今天日期的功能吗？

我想安排-mkdir每天用当天的日期创建目录。有什么方法可以获取命令的今天日期:hdfsdfs-mkdir/home/ 最佳答案使用linuxdate命令hdfsdfs-mkdir/home/`date+%Y%m%d` 关于hadoop-HDFS有获取今天日期的功能吗？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/42997587/

天日 hadoop section code hdfs oozie oozie-coordinator

hadoop - Cloudera Manager 和 hdfs-site.xml

使用ClouderaManager时，我可以通过以下方式访问hdfs-site.xml文件:ClouderaManager>Cluster>HDFS>Instances>(NameNode，例如)>Processes配置文件>hdfs-site.xml然后URL指向:http://quickstart.cloudera:7180/cmf/process/8/config?filename=hdfs-site.xml这个文件是否可以通过文件系统直接访问，如果可以，它位于何处最佳答案 ClouderaManager中设置的配置存储在C

hdfs-site Cloudera section hadoop hdfs cloudera-manager

maven - Apache 光束 :'Unable to find registrar for hdfs'

我想使用Sparkrunner运行管道，数据存储在远程机器上。以下命令已用于提交作业:./spark-submit--classorg.apache.beam.examples.WordCount--masterspark://192.168.1.214:6066--deploy-modecluster--supervise--executor-memory2G--total-executor-cores4hdfs://192.168.1.214:9000/input/word-count-ck-0.1.jar--runner=SparkRunner它正在创建以下响应:RunningS

amp registrar gt lt artifactId maven hadoop hdfs apache-beam

172 173 174175176 177 178