hdfs_rtp

hadoop - Sqoop 使用 Java 从 Mysql 导入到 Hadoop hdfs

我正在尝试使用Java从Mysql加载到HDFS。我的Hadoop版本2.7.2和Sqoop1.4.6。我收到以下异常ERRORsecurity.UserGroupInformation:PriviledgedActionExceptionas:xxxxcause:org.apache.hadoop.ipc.RemoteException:ServerIPCversion9cannotcommunicatewithclientversion416/11/1617:40:57ERRORtool.ImportTool:EncounteredIOExceptionrunningimportj

hadoop - Hive:处理存储在 HDFS 中的数据中的负数

我有一种情况要处理负数值数据。文件(存储在HDFS中)中某些数值的负号位置在右侧(如这个12345-)，理想情况下负数在左侧表示为负号(如-12345)。我无法更改数据，因为该数据是正确的，并且当源系统(SAP)使用该数据时，它能够将数据读取为负数。在配置单元中，我必须运行一些算术操作，假设我想对包含“12345-”等数据的值求和，然后HIVE无法将此值识别为数字(列类型为DECIMAL(10,2))结果显示NULL作为值!需要您的建议如何处理这种情况。提前致谢。最佳答案检查最后一个字符，如果是'-'然后使用substr和con

hadoop Hive section 12345 39 integer hdfs negative-number

file - 如何在 HDFS 中创建所需大小的空文件？

我是Hadoop和HDFS的新手。我相信我的问题与thispost有点相关.本质上，我试图在HDFS中创建10GB大小的空文件。截断命令失败，因为指定的文件大小大于现有文件大小似乎被禁止。在这种情况下，有什么选择呢？例如，在Linux系统中，可以使用“truncate”命令来设置任意文件大小。最佳答案您可以使用TestDFSIO直接在HDFS中创建所需大小的文件。程序TestDFSIO打包在jar文件“hadoop-mapreduce-client-jobclient-tests.jar”中。这个jar随hadoop安装一起提供

中创空文 section TestDFSIO file hadoop resize hdfs truncate

从 hdfs 到 hive 的 Csv 文件摄取

我正在尝试使用以下命令将csv文件从我的hdfs摄取到配置单元。createtabletest(col1string,col2int,col3string)ROWFORMATSERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'WITHSERDEPROPERTIES("separatorChar"=",","quoteChar"="\"")storedastextfile;但是我的配置单元表中仍然出现双引号，所以我尝试了下面的命令。altertabletestsetTBLPROPERTIES('skip.header.line.count'=

摄取 hdfs section 引号 39 csv hadoop hive hiveql

hadoop - Spark-SQL 在 yarn-cluster 上的错误 hdfs 权限

我有一个简单的工作，就是通过sparksql在hdfs中读取hive。我首先在yarn-client模式下运行它，我没有遇到任何问题。几次之后，我开始通过yarn-cluster模式启动它，但我遇到了这个问题:我有这个hdfs权限错误:Causedby:MetaException(message:org.apache.hadoop.security.AccessControlException:Permissiondenied:user=yarn,access=EXECUTE,inode="/Projects/SNB/directory/Private/table/table_ORC"

yarn-cluster Spark-SQL apache hadoop java apache-spark hive hdfs apache-spark-sql

java - 获取从 hdfs 到 servlet 的文件/目录列表

我正在尝试用java创建一个web应用程序，它可以列出浏览器上的所有HDFS文件/目录。谁能告诉我这怎么可能？我试图从谷歌获得帮助，但找不到任何方向。最佳答案您可以使用HDFSWebUI(在Apachehttp://namenodehost:50070中)。然而，HadoopHDFS也提供了RESTapi，为HDFS提供完整的FileSystem/FileContext接口(interface)支持。举个例子，列出指定HDFS位置的文件/目录请求:curl-i"http://:/webhdfs/v1/?op=LISTSTATUS

servlet java 34 section strong hadoop servlets hdfs

hadoop - 用于处理保存在 HDFS 中的小型二进制文件的 Spark 架构

我不知道如何为以下用例构建架构:我有一个Web应用程序，用户可以在其中上传文件(pdf&pptx)和要处理的目录。上传完成后，Web应用程序将此文件和目录放在HDFS中，然后在kafka上发送一条包含此文件路径的消息。Spark应用程序从kafka流中读取消息，将它们收集到master(驱动程序)上，然后进行处理。我首先收集消息，因为我需要将代码移动到数据，而不是将数据移动到接收到消息的地方。我知道spark将作业分配给本地已有文件的执行程序。我对kafka有疑问，因为出于上述原因我被迫首先收集它们，并且当想要创建检查点应用程序崩溃时“因为你试图从广播变量中引用SparkContext

小型 hadoop section 的归档 apache-spark hbase hdfs apache-kafka

hadoop - 从非 hdfs 源读取时 namenode.LeaseExpiredException 而 df.write.parquet

我有一个在yarn集群上运行并使用databricks库将csv转换为parquet的spark代码。当csv源是hdfs时它工作正常。但是当csv源不是hdfs时(通常是这种情况)，我遇到了这个异常。它不应该发生，因为相同的代码适用于hdfscsv源。问题的完整链接:https://issues.apache.org/jira/browse/SPARK-19344 最佳答案如评论中所述。当文件位于驱动程序节点上，但节点无法访问时，读取将失败。当使用读取输入文件时(例如spark2.0中的spark.read)，所有执行程序节点都

LeaseExpiredException namenode section noreferrer https hadoop apache-spark apache-spark-sql parquet

hadoop - 启动 Hadoop DFS - $HADOOP_HOME/bin/hdfs 中没有这样的文件或目录？

我正在设置单个Hadoop节点，但是在运行$HADOOP_HOME/sbin/start-dfs.sh时它打印出找不到$HADOOP_HOME/bin/hdfs。虽然那个位置的文件存在，但我可以很好地阅读它。从start-dfs.sh脚本记录:root@hadoop:/opt/hadoop-2.7.3#sbin/start-dfs.shError:Couldnotfindorloadmainclassorg.apache.hadoop.hdfs.tools.GetConfStartingnamenodeson[]localhost:startingnamenode,loggingto/

HADOOP_HOME hadoop code section hdfs

hadoop - HDFS 磁盘已满

在我们的Ambari集群中，HDFS磁盘使用率变为100%。我想删除HBase中的表以释放磁盘，但hbase(master)没有启动。我尝试了Hdfs重新平衡，但失败了。还有一次我手动删除了HDFS文件，但之后HDFS就不再启动了。是否有释放磁盘空间的正确方法？还是我应该重新安装ambari集群？HDP版本为2.4.2，HDFS版本为2.7.1，Hbase为1.1.2 最佳答案我找到了一个解决方案，它并不完美，但比重新安装所有东西要好!貌似有从hdfs(hadoopfs)中删除文件的命令，所以我们应该用它来删除hbase数据。命令

hadoop HDFS section hbase strong ambari

139 140 141142143 144 145