草庐IT

hdfs_rtp

全部标签

hadoop - 在不使用 HIVE 的情况下在 HDFS 中以 ORC 格式存储 avro 数据

比较将avro数据存储为ORC和Parquet格式,我成功地使用"com.twitter"%"parquet-avro"%"1.6.0"将Avro数据存储到Parquet中,但找不到任何信息或API来以ORC格式存储avro数据。ORC是否仅与Hive紧密耦合?谢谢subahsh 最佳答案 您没有说您在使用Spark,但问题已被标记,所以我假设您是。ORC文件格式目前与Spark中的HiveContext密切相关(我认为仅在1.4及更高版本中可用),但如果您创建一个Hive上下文,您应该能够将数据帧写入ORC文件你可以使用Parqu

hadoop - HDFS 用户的 Hive 查询失败

如果我自己运行Hiveshell,我可以查询表。但是如果我使用sudo-uhdfshive运行hiveshell然后我所有的查询都失败并显示错误消息Applicationapplication_1447966350718_10654failed2timesduetoAMContainerforappattempt_1447966350718_10654_000002exitedwithexitCode:-1000Formoredetailedoutput,checkapplicationtrackingpage:http://vtdevana-cloudera11.dealer.ddc

java - 方案 :hdfs and Class org. 没有找到 apache.hadoop.DistributedFileSystem 的文件系统

我想上传一个文件到HDFS。我使用以下jars作为依赖项编译了我的代码:hadoop-auth-2.6.1.jar,hadoop-common-2.6.1.jar和hadoop-hdfs-2.6.1.jar,我的代码:我用Ant编译的。但是,它给了我这个错误:NoFileSystemforscheme:hdfs。然后我改了代码,重新编译:但现在我遇到了另一个错误:Classorg.apache.hdfs.DistributedFileSystemnotfound。怎么了?我该怎么办? 最佳答案 DistributedFileSyst

hadoop - 统计hdfs中压缩文件的个数

我正在尝试计算Hdfs文件夹中压缩的文件。我正在使用hdfsdfs-count/user/data|grep.snappy——什么都不显示grep.snappy|hdfsdfs-count/user/data--它显示所有文件(即使不是.snappy)我能得到正确的命令来计算这个/user/datahdfs路径中的.snappy文件吗 最佳答案 hdfsdfs-count命令提供以下信息:目录数文件数内容大小文件名例如,我在/tmp/文件夹中得到以下输出:CMD>hdfsdfs-count/tmp/1433193414280395/

hadoop - 无法将文件从 HDFS 复制到本地 FS 上的挂载设备

我们在客户端机器上安装了一个设备,Windows和Unix环境(客户端机器)都可以将其作为根文件夹(/nas_store)访问。我们能够对我们的本地主目录(如/home/abhinay/)执行-get或-copyToLocal,但无法复制到/nas_store,出现错误get:Operationnotpermitted任何人都可以建议,必须在hadoop配置文件中进行任何更改吗? 最佳答案 有点乱,但在这里:hdfsdfs-cat/folder_path/*|cat>/nas_store/file

scala - Spark SBT 程序尝试从本地文件系统而不是 IntelliJ 项目中的 hdfs 读取

我安装了Hadoop(hadoop-2.7.2.tar.gz)和Spark(spark-1.6.0-bin-without-hadoop.tgz)。两者均已正确配置以协同工作。我能够遵循this的scala版本动手教程,以读取存储在hdfs上的文件并应用ALS算法提供建议。但是现在当我尝试在IntelliJIDE中做同样的事情时,我得到了这个错误:Exceptioninthread"main"org.apache.hadoop.mapred.InvalidInputException:Inputpathdoesnotexist:file:/data/movielens/medium我想

hadoop - HDFS 中的故障类型有哪些?

HDFS中的故障类型有哪些?当NameNode、SecondaryNameNode和DataNode销毁时,会发生什么? 最佳答案 故障主要有NameNode故障、DataNode故障和网络分区三种。NameNodefailuresDataNodeSecondaryNode对于所有失败的情况,请尝试sudojps。您将获得进程ID和进程名称。然后执行sudokill-9{process-id}。然后尝试在hdfs或pig/hiveshell中读取/写入数据。 关于hadoop-HDFS中

azure - 如何确定 hdfs(Azure blob 存储)上文件的文件编码?

我在具有混合文件编码的hdfs上有一堆100GB的文件(不幸的是在Azureblob存储中)。如何确定每个文件的文件编码?一些dfs命令行命令将是理想的。谢谢。 最佳答案 我最终通过将blob存储中的每个文件的开头传送到本地缓冲区,然后应用fileunix实用程序,获得了我需要的结果。以下是针对单个文件的命令:hdfsdfs-catwasb://container@account.blob.core.windows.net/path/to/file|head-n10>buffer;file-ibuffer这会让你得到类似的东西:bu

Python HDFS 给出了不正确的文件大小

我正在尝试使用python3.5和hdfs库从hdfs获取文件的大小。https://pypi.python.org/pypi/hdfs/fromhdfs.clientimportClientif__name__=='__main__':cl=Client("http://hostName:50070")print(cl.content("/path/to/file/fileName.txt",False))我明白了{'spaceQuota':-1,'directoryCount':0,'spaceConsumed':103566,'length':34522,'quota':-1,'

hadoop - spark 是否有可能同时读取 HDFS 数据和进行一些计算?

例如,我在Spark平台上运行了以下工作计数应用程序:valtextFile=sc.textFile("hdfs://...")valcounts=textFile.flatMap(line=>line.split("")).map(word=>(word,1)).reduceByKey(_+_)counts.saveAsTextFile("hdfs://...")假设有一个worker需要处理1Gb数据,那么这个worker是否有可能在获取所有1Gb数据之前开始做一些计算(比如flatMap)? 最佳答案 一般来说,是的,但是您的