Hdfs

hadoop - 我们必须将数据上传到哪个slave到hadoop集群

我们已经用2台机器设置了hadoop集群，我们正在尝试在我们的实时项目中实现集群，我们需要多节点集群中关于上传数据的信息，假设如果我有9个数据节点，哪个从节点我们需要上传数据。我可以选择将数据上传到2个从属节点吗，如果我将数据上传到hdfs，它是否会复制到另一个从属节点？正如我们观察到的，当前使用/tmp位置的hdfs如果/tmp已满，HDFS将使用哪个位置。最佳答案添加更多的集群的目的是为了扩大数据存储..您是否正在寻找安全的集群，向某些用户授予权限以将数据上传到HDFS？对If表示可以实现KERBEROS原则或者授权用户上传

hadoop 传到 section strong hdfs apache-hive

hadoop - 插入 Hive 表时如何从 HDFS 中选择动态文件名

我有一个Hive表。现在我需要编写一个工作流程，每天工作都会在某个位置搜索文件-/data/data_YYYY-mm-dd.csvlike/data/data_2015-07-07.csv/data/data_2015-07-08.csv...因此每天工作流都会自动选择文件名并将数据加载到Hive表(MyTable)中。我正在编写如下加载脚本-在路径中加载数据“/data/${filepath}”覆盖到表MyTable。现在，在运行与普通配置单元作业相同的同时，我可以将文件路径设置为data_2015-07-07.csv，但如何在Oozie协调器中执行此操作，以便它自动选择名称为日期的

中选 hadoop gt lt 34 hive oozie oozie-coordinator

java - NameNode没有启动start-all.sh

我正尝试在我的机器上将Hadoop作为单节点集群运行。我完成了安装步骤，所以Hadoop已经在我的系统上了。但是，当我运行start-all.sh并随后检查jps是否正在运行NameNode时，这就是我得到的结果:20053Jps19944NodeManager我已经尝试先运行start-dfs.sh，然后运行start-yarn.sh，但这没有用。我还尝试用格式化NameNodehadoopnamenode-format但我做不到，我得到了错误:15/07/1516:34:19WARNnamenode.NameNode:Encounteredexceptionduringform

start-all NameNode hadoop java ubuntu hdfs hadoop2

hadoop - 基于文件大小的 block 和映射器

假设我有3个文件要存储在HDFS中并希望通过MapReduce读取它们。因此，在HDFS位置/omega/usecase/input中有3个文件，分别是file1.txt、file2.txt、file3.txt这3个文件的大小分别是file1.txt(64MB),file2.txt(32MB),file3.txt(1MB)还假设默认block大小为64MB，复制因子为3我想知道这3个文件将有多少个block，如果我编写一个MapReduce程序来读取输入目录/omega/usecase/input，将执行多少个映射器最佳答案 HD

射器 hadoop section code mapreduce hdfs

java - 如何从 Mapreduce 作业查询存储在 hdfs 中的嵌入式数据库？

我正在尝试从HadoopMapReduce映射器查询GeoLite数据库以解析IP地址的国家/地区。我尝试了两种方法:1.使用File仅适用于本地文件系统，我收到一个文件未找到异常Filedatabase=newFile("hdfs://localhost:9000/input/GeoLite2-City.mmdb");//2.使用流，但在运行时出现此错误Error:JavaHeapSpacePathpt=newPath("hdfs://localhost:9000/input/GeoLite2-City.mmdb");FileSystemfs=FileSystem.get(newCo

Mapreduce java section DatabaseReader code hadoop geolocation hdfs

java - spark submit 命令的命令行参数中是否有字符限制？

我还想知道在sparksubmit命令的参数中是否有任何特殊字符不能使用？我也想知道我们可以将整个嵌套的Json字符串传递给spark提交命令中的参数吗？另一个问题是如何使用java代码(来自另一个程序)运行spark程序？那么，我们是否必须在集群(安装了spark的linux机器)上运行我们的其他程序才能运行我的spark程序？这件事我太糊涂了；请提出建议。最佳答案对于你的第二个问题:另一个问题是如何使用java代码(来自另一个程序)运行spark程序？在你的java程序中如果你有一个Maven项目，你可以添加一个maven依

submit spark section java hadoop apache-spark hdfs

hadoop - 在 Hadoop 中设置复制

我尝试使用hadoopAPI加载文件作为实验。我想将复制设置为最低，因为这是为了实验。我首先尝试使用FileSystem.setReplication():Configurationconfig=newConfiguration();config.set("fs.defaultFS","hdfs://192.168.248.166:8020");FileSystemdfs2=FileSystem.get(config);Pathsrc2=newPath("C:\\Users\\abc\\Desktop\\testfile.txt");Pathdst2=newPath(dfs2.getW

中设 hadoop code section config hdfs

hadoop - 为 julia 安装 HDFS 接口(interface)包

我是Julia语言的新手，觉得它很有趣。正如它所说的那样，它已经准备好hadoop我想使用我的本地hadoop集群来测试它。我在我的debian32位机器上安装了最新版本的julia，并编写了一些简单的脚本，类似于Helloworld之类的东西。现在，我已经从下面的站点中提取了HDFS和YARN接口(interface)包https://github.com/JuliaParallel/HDFS.jlhttps://github.com/JuliaParallel/Elly.jl不知道如何在我的机器上安装这些并使用这些包来查询HDFS集群并运行一些map-reduce任务。任何指针在这

interface hadoop section JuliaParallel https julia

hadoop - 将数据写入hadoop的最有效方式

我是HadoopHDFS的新手。我正在尝试学习如何将从本地文件读取的数据写入hadoopHDFS。我想知道如何高效地写作。请帮忙最佳答案你可以这样试试hadoopfs-putlocalpathhdfspath示例hadoopfs-put/user/sample.txt/sample.txt你可以google它来找到更多的hdfs命令。引用here 关于hadoop-将数据写入hadoop的最有效方式，我们在StackOverflow上找到一个类似的问题：

hadoop 将 section strong hdfs

azure - Pig 无法在 HDFS (riskfactor.pig) 中创建(或查找)pigjobs 文件

我在Azure上使用HortonWorks沙箱，并且正在研究Hadoop入门教程“实验室3-pig风险因素分析”。http://hortonworks.com/hadoop-tutorial/hello-world-an-introduction-to-hadoop-hcatalog-hive-and-pig/#section_5在执行完所有步骤之后，运行这个pig脚本:a=LOAD'geolocation'usingorg.apache.hive.hcatalog.pig.HCatLoader();b=filterabyevent!='normal';c=foreachbgenera

中创 riskfactor apache hadoop java azure apache-pig hdfs hortonworks-data-platform

33 34 353637 38 39