hdfs-agent

hadoop - 将 Sqoop 数据从 HDFS 迁移到 Hive

当使用Sqoop将一堆大型MySQL表导入HDFS时，我忘记包含--hive-import标志。所以现在我已经将这些表放在HDFS中，并且想知道是否有一种简单的方法可以将数据加载到Hive中(无需自己编写LOADDATA语句)。我尝试使用sqoopcreate-hive-table:./bin/sqoopcreate-hive-table--connectjdbc:mysql://xxx:3306/dw--usernamexxx--passwordxxx--hive-import--tabletweets虽然这确实创建了正确的配置单元表，但它没有向其中导入任何数据。我觉得我在这里遗漏了

hadoop - 如何从 Hadoop 中的 HDFS 中的文件读取序列化对象

我已经将一个LibSVM类型的对象序列化到一个名为j48.model的文件中。此文件已传输到HDFS文件系统中。现在，在hadoopmapreduce代码中，我如何反序列化该对象并将其读回到LibSVM类的实例中？我已经将与LIBSVM相关的.jar文件作为外部jar文件包含到mareduce项目中。哪些JAVA方法可以帮助我将文件j48.model的内容读入LibSVM对象？最佳答案当您打开HDFSURL时，它会返回一个InputStream。FileSystemfs=FileSystem.get(newConfigurati

hadoop section LibSVM ObjectInputStream mapreduce hdfs

hadoop - 我如何只下载 hdfs 而不是 hadoop？

如何只下载hdfs而不是hadoop？我正在尝试将它安装在linux/mac/windows上。我尝试搜索，但所有结果都指向hadoop安装程序，例如http://apache.mirrors.tds.net/hadoop/common/hadoop-2.5.1谢谢。最佳答案我同意上面乔杜里先生的观点。自Hadoop0.21(早在2010年)以来，HadoopCore已分为Common、HDFS和MapReduce。在这里引用TomWhite的优秀文章http://blog.cloudera.com/blog/2010/08/w

hadoop hdfs section apache

java - MapReduce 是否需要与 HDFS 一起使用

我想使用HadoopMapReduce提高数据处理性能。那么，我需要将它与HadoopDFS一起使用吗？或者MapReduce可以与其他类型的分布式数据一起使用？请给我指路.... 最佳答案 Hadoop是一个框架，包括用于计算的MapReduce编程模型和用于存储的HDFS。HDFS代表hadoop分布式文件系统，其灵感来自Google文件系统。整个Hadoop项目的灵感来自于Google发表的研究论文。research.google.com/archive/mapreduce-osdi04.pdfhttp://research.

MapReduce java section research hadoop hdfs

postgresql - 关于 hawq pxf 访问 hdfs 上的文件数据

在我部署了hdfs、mapreduce、hawq、pxf和ambari之后，我使用impala-tpcds-kits在hdfs上生成了大约10G数据。但是当我用用户postgres登录Postgres时，我不能使用命令行CREATEEXTERNALTABLE来索引hdfs上的数据。当我使用psqlhelp命令时，没有关键字CREATEEXTERNALTABLE。不知道为什么？Lastlogin:ThuAug2515:08:152016from192.168.1.50[root@hadoop-m-21~]#supostgresbash-4.1$psqlpsql(8.4.20)Type"h

postgresql hawq section code EXTERNAL hadoop

scala - 将数据帧写入 HDFS 时出现 NumberFormatException 错误

我正在将dataframe写入HDFS，代码如下final_df.write.format("com.databricks.spark.csv").option("header","true").save("path_to_hdfs")它给我以下错误:Causedby:java.lang.NumberFormatException:Forinputstring:"124085346080"下面的完整堆栈:atorg.apache.spark.sql.execution.datasources.DefaultWriterContainer.writeRows(WriterContaine

时出 NumberFormatException scala apache spark hadoop apache-spark pyspark hdfs

hadoop - 将 hadoop fs 路径转换为 hdfs ://paths on EMR

我想知道如何将数据从EMR集群的HDFS文件系统移动到S3存储桶。我认识到我可以在Spark中直接写入S3，但原则上它也应该在之后直接写入，但到目前为止我还没有发现在实践中是这样。AWS文档推荐s3-dist-cp用于在HDFS和S3之间移动数据。documentation对于s3-dist-cp声明应该以URL格式指定HDFS源，即hdfs://path/to/file。到目前为止，我已经使用hadoopfs-get在HDFS和我的本地文件系统之间移动数据，它采用path/to/file而不是hdfs的语法//路径/到/文件。目前尚不清楚如何在两者之间进行映射。我正在从SSH连接到主

hadoop paths code file path amazon-s3 emr amazon-emr

hadoop - 无法更改对 hdfs 目录的读写权限

我正在尝试将文本文件复制到hdfs位置。我遇到了访问问题，所以我尝试更改权限。但我无法更改同样面临以下错误:chaithu@localhost:~$hadoopfs-puttest.txt/userput:Permissiondenied:user=chaithu,access=WRITE,inode="/user":hdfs:supergroup:drwxr-xr-xchaithu@localhost:~$hadoopfs-chmod777/userchmod:changingpermissionsof'/user':Permissiondenied.user=chaithuisno

hadoop hdfs code chaithu user

Hadoop:将文件本地目录复制到 Hdfs 时出错

当我尝试在hdfs中复制3个文件的目录时出现以下错误hduser@saket-K53SM:/usr/local/hadoop$bin/hadoopdfs-copyFromLocal/tmp/gutenberg/user/hduser/gutenberg12/08/0123:48:46WARNhdfs.DFSClient:DataStreamerException:org.apache.hadoop.ipc.RemoteException:java.io.IOException:File/user/hduser/gutenberg/gutenberg/pg20417.txtcouldon

时出 Hadoop gutenberg hduser

hadoop - 将文件样本从 hdfs 复制到本地 fs？

好的，一个很愚蠢的问题...我在hdfs中有一个大文件/user/input/foo.txt我想从这个位置复制前100行到本地文件系统...而且数据非常敏感，所以我对实验有点犹豫。将样本数据从hdfs复制到本地fs的正确方法是什么。最佳答案如果文件没有被压缩:bin/hadoopfs-cat/path/to/file|head-100>/path/to/local/file如果文件是压缩的:bin/hadoopfs-text/path/to/file|head-100>/path/to/local/file

hadoop hdfs section code pre

147 148 149150151 152 153