hdfs_clusters

scala - 使用 Hivecontext，在本地系统 metastore_db 而不是 Cluster 中本地创建 Hive 表，在哪里放置我的 hive-site.xml

我已经创建了一个SparkContext对象，并尝试从hadoop服务器(不在我的本地)上的文本文件中检索文本，我能够检索到它。当我尝试检索Hive表(位于独立机器、集群上)时，我无法做到，当我创建一个Hive表时，它是在metastore_db中本地创建的objHiveContext.sql("createtableyahoo_orc_table(dateSTRING,open_priceFLOAT,high_priceFLOAT,low_priceFLOAT,close_priceFLOAT,volumeINT,adj_priceFLOAT)storedasorc")我尝试设置Me

scala - 如何使用 Scala 使用 Hadoop 客户端在 HDFS 中 append 文本文件？

我想将文本文件写入HDFS。文件必须写入HDFS的路径是动态生成的。如果文件路径(包括文件名)是新的，则应创建该文件并将文本写入其中。如果文件路径(包括文件)已经存在，则该字符串必须append到现有文件。我使用了以下代码。文件创建工作正常。但不能将文本append到现有文件。defwriteJson(uri:String,Json:JValue,time:Time):Unit={valpath=newPath(generateFilePath(Json,time))valconf=newConfiguration()conf.set("fs.defaultFS",uri)conf.s

本文 Hadoop hadoop-hdfs 34 scala append hdfs

hadoop - 访问 hdfs 文件夹

如何限制对hdfs中特定文件夹的访问。用户不应通过hue、hive或任何其他方式访问该文件夹。最佳答案除了chmod之外，您还可以使用ACL(访问控制列表)。有了它，您可以设置文件、文件夹和用户的权限。user::rw-user:bruce:rwx#effective:r--group::r-x#effective:r--group:sales:rwx#effective:r--mask::r--other::r--检查下面的链接https://hadoop.apache.org/docs/current/hadoop-proj

hadoop hdfs section effective hive bigdata

hadoop - Ambari 抛出错误 E090 HDFS 030 Error in creation reaction

我已经在Ambari管理中设置了一个文件浏览View(View-添加View-文件)，但是当我试图访问这个View时，出现以下错误:E090HDFS030Errorincreation/user//hive/jobs/hive-job-...[HdfsApiException]为什么？最佳答案 Solved!我的问题的解决方案是不允许运行“ambari-server”的用户代表登录到ambari的当前用户执行操作。在Hadoop术语中，不允许ambari守护进程用户冒充ambari用户。要解决此问题，必须修改HDFS配置，以便为我

creation reaction section ambari blockquote hadoop hdfs hortonworks-data-platform

hadoop - 计算大于 100MB 的 hdfs 压缩文件

有人可以帮我构建命令来计算HDFS中根目录中大于100MB的.snappy压缩文件的数量吗？我使用此命令从根目录中获取.snappy文件的数量:hdfsfsck/-files|grep".snappy"|wc-l现在我需要统计大于100MB的压缩文件。最佳答案使用hdfs和awk命令应该可以做到这一点。这是片段hdfsdfs-ls-R/path_to_dir/|awk'{if($5>104857600&&$8~/\.snappy/)print$8}' 关于hadoop-计算大于100

hadoop hdfs section code strong awk grep bigdata

hadoop - Datanodes 处于事件状态，但我无法将文件复制到 HDFS [Hadoop 2.6.0 - Raspberry Pi Cluster]

我一直在使用RaspberryPis开发Hadoop集群，只是出于学习目的。我已经成功配置了所有的奴隶和主人(据我所知)。问题:HDFS无法复制本地文件。并根据http://Master:8088我有3个事件节点。(我在最后附上了截图)但是当我尝试将本地文件复制到HDFS时，出现以下异常:16/01/1206:20:43WARNhdfs.DFSClient:DataStreamerExceptionorg.apache.hadoop.ipc.RemoteException(java.io.IOException):File/LICENCE.txt._COPYING_couldonlyb

Datanodes Raspberry gt lt property hadoop hdfs raspberry-pi2

hadoop - 使用 mapreduce 修改 hdfs 上的文件

我可以修改驻留在hdfs上的文件吗？是创建具有修改内容的临时文件并删除原始文件的唯一方法吗？我可以使用map-reduce修改文件吗？是否可以并行修改不同的文件block并以某种方式合并到一个文件中？最佳答案一旦文件在HDFS中，您就不能修改它，除非附加到它。看到这个确认追加是可能的答案:AppenddatatoexistingfileinHDFSJavaMapreduce允许您并行操作文件，每个映射器读取文件的一个block，同时运行多个映射器。这就是它设计的工作方式。任何给定的映射器都可以过滤行并很容易地将全部、部分或全部写

mapreduce hadoop section 射器 stackoverflow hdfs

hadoop - hdfs文件存储查询

当你想在hadoop中存储一个文件时，你需要在系统中运行jobtracker或者tasktracker吗？他们在hdfs中的文件存储中有什么作用吗？当这两个服务宕机时，你能在hdfs中存储一个文件吗？最佳答案在HDFS中存储文件时，jobtracker和tasktracker不会出现，jobtracker和tasktracker是处理恶魔，而Namenode、datanode和secondarynamenode是存储恶魔。因此，当jobtracker和tasktracker关闭时，您可以将文件存储在HDFS中。

hadoop hdfs section tasktracker jobtracker

bash - 每次启动时手动启动 HDFS？

简而言之:我是否应该在断电操作后每次我回到集群时启动HDFS？我已经成功创建了一个Hadoop集群(在loosingsomebattles之后)，现在我要非常小心地进行此操作。我应该在每次启动集群时执行start-dfs.sh，还是它已准备好执行我的应用程序代码？start-yarn.sh也是如此。我担心如果我在没有一切正常的情况下运行它，它可能会在执行后留下垃圾目录。最佳答案仅仅通过使用Hortonworks和Cloudera沙箱，我可以说打开和关闭它们似乎没有表现出任何“副作用”。但是每次集群启动的时候都需要启动需要的服务。

bash HDFS section code strong hadoop cluster-computing distributed-computing

hadoop - HDFS 错误 + 不完整的 HDFS URI，没有主机 : hdfs://l27. 0.0.1:9000

我用命令在hadoop上运行flumeflume-ngagent-cconf-fconf/flume-twitter.conf-nTwitterAgent现在我无法保存推特数据。它显示错误。我在下面发布了错误。你有什么想法吗？？2016-01-2915:48:56,979(Twitter4JAsyncDispatcher[0])[DEBUG-com.cloudera.flume.source.TwitterSource$1.onStatus(TwitterSource.java:108)]ArtistLR:RTArtsUK1Anunlikelyduo:Homeland'sNinaHos

HDFS hadoop java apache BucketWriter flume webhdfs bigdata

115 116 117118119 120 121