草庐IT

hdfs_rtp

全部标签

hadoop - Sqoop 使用 Java 从 Mysql 导入到 Hadoop hdfs

我正在尝试使用Java从Mysql加载到HDFS。我的Hadoop版本2.7.2和Sqoop1.4.6。我收到以下异常ERRORsecurity.UserGroupInformation:PriviledgedActionExceptionas:xxxxcause:org.apache.hadoop.ipc.RemoteException:ServerIPCversion9cannotcommunicatewithclientversion416/11/1617:40:57ERRORtool.ImportTool:EncounteredIOExceptionrunningimportj

hadoop - Hive:处理存储在 HDFS 中的数据中的负数

我有一种情况要处理负数值数据。文件(存储在HDFS中)中某些数值的负号位置在右侧(如这个12345-),理想情况下负数在左侧表示为负号(如-12345)。我无法更改数据,因为该数据是正确的,并且当源系统(SAP)使用该数据时,它能够将数据读取为负数。在配置单元中,我必须运行一些算术操作,假设我想对包含“12345-”等数据的值求和,然后HIVE无法将此值识别为数字(列类型为DECIMAL(10,2))结果显示NULL作为值!需要您的建议如何处理这种情况。提前致谢。 最佳答案 检查最后一个字符,如果是'-'然后使用substr和con

file - 如何在 HDFS 中创建所需大小的空文件?

我是Hadoop和HDFS的新手。我相信我的问题与thispost有点相关.本质上,我试图在HDFS中创建10GB大小的空文件。截断命令失败,因为指定的文件大小大于现有文件大小似乎被禁止。在这种情况下,有什么选择呢?例如,在Linux系统中,可以使用“truncate”命令来设置任意文件大小。 最佳答案 您可以使用TestDFSIO直接在HDFS中创建所需大小的文件。程序TestDFSIO打包在jar文件“hadoop-mapreduce-client-jobclient-tests.jar”中。这个jar随hadoop安装一起提供

从 hdfs 到 hive 的 Csv 文件摄取

我正在尝试使用以下命令将csv文件从我的hdfs摄取到配置单元。createtabletest(col1string,col2int,col3string)ROWFORMATSERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'WITHSERDEPROPERTIES("separatorChar"=",","quoteChar"="\"")storedastextfile;但是我的配置单元表中仍然出现双引号,所以我尝试了下面的命令。altertabletestsetTBLPROPERTIES('skip.header.line.count'=

hadoop - Spark-SQL 在 yarn-cluster 上的错误 hdfs 权限

我有一个简单的工作,就是通过sparksql在hdfs中读取hive。我首先在yarn-client模式下运行它,我没有遇到任何问题。几次之后,我开始通过yarn-cluster模式启动它,但我遇到了这个问题:我有这个hdfs权限错误:Causedby:MetaException(message:org.apache.hadoop.security.AccessControlException:Permissiondenied:user=yarn,access=EXECUTE,inode="/Projects/SNB/directory/Private/table/table_ORC"

java - 获取从 hdfs 到 servlet 的文件/目录列表

我正在尝试用java创建一个web应用程序,它可以列出浏览器上的所有HDFS文件/目录。谁能告诉我这怎么可能?我试图从谷歌获得帮助,但找不到任何方向。 最佳答案 您可以使用HDFSWebUI(在Apachehttp://namenodehost:50070中)。然而,HadoopHDFS也提供了RESTapi,为HDFS提供完整的FileSystem/FileContext接口(interface)支持。举个例子,列出指定HDFS位置的文件/目录请求:curl-i"http://:/webhdfs/v1/?op=LISTSTATUS

hadoop - 用于处理保存在 HDFS 中的小型二进制文件的 Spark 架构

我不知道如何为以下用例构建架构:我有一个Web应用程序,用户可以在其中上传文件(pdf&pptx)和要处理的目录。上传完成后,Web应用程序将此文件和目录放在HDFS中,然后在kafka上发送一条包含此文件路径的消息。Spark应用程序从kafka流中读取消息,将它们收集到master(驱动程序)上,然后进行处理。我首先收集消息,因为我需要将代码移动到数据,而不是将数据移动到接收到消息的地方。我知道spark将作业分配给本地已有文件的执行程序。我对kafka有疑问,因为出于上述原因我被迫首先收集它们,并且当想要创建检查点应用程序崩溃时“因为你试图从广播变量中引用SparkContext

hadoop - 从非 hdfs 源读取时 namenode.LeaseExpiredException 而 df.write.parquet

我有一个在yarn集群上运行并使用databricks库将csv转换为parquet的spark代码。当csv源是hdfs时它工作正常。但是当csv源不是hdfs时(通常是这种情况),我遇到了这个异常。它不应该发生,因为相同的代码适用于hdfscsv源。问题的完整链接:https://issues.apache.org/jira/browse/SPARK-19344 最佳答案 如评论中所述。当文件位于驱动程序节点上,但节点无法访问时,读取将失败。当使用读取输入文件时(例如spark2.0中的spark.read),所有执行程序节点都

hadoop - 启动 Hadoop DFS - $HADOOP_HOME/bin/hdfs 中没有这样的文件或目录?

我正在设置单个Hadoop节点,但是在运行$HADOOP_HOME/sbin/start-dfs.sh时它打印出找不到$HADOOP_HOME/bin/hdfs。虽然那个位置的文件存在,但我可以很好地阅读它。从start-dfs.sh脚本记录:root@hadoop:/opt/hadoop-2.7.3#sbin/start-dfs.shError:Couldnotfindorloadmainclassorg.apache.hadoop.hdfs.tools.GetConfStartingnamenodeson[]localhost:startingnamenode,loggingto/

hadoop - HDFS 磁盘已满

在我们的Ambari集群中,HDFS磁盘使用率变为100%。我想删除HBase中的表以释放磁盘,但hbase(master)没有启动。我尝试了Hdfs重新平衡,但失败了。还有一次我手动删除了HDFS文件,但之后HDFS就不再启动了。是否有释放磁盘空间的正确方法?还是我应该重新安装ambari集群?HDP版本为2.4.2,HDFS版本为2.7.1,Hbase为1.1.2 最佳答案 我找到了一个解决方案,它并不完美,但比重新安装所有东西要好!貌似有从hdfs(hadoopfs)中删除文件的命令,所以我们应该用它来删除hbase数据。命令