草庐IT

hadoop - 通过 VM 安装 Ubuntu 以进行 Hadoop 环境设置

我是Hadoop领域的新手。我想知道设置hadoop环境的系统要求。我的笔记本电脑有4GB内存、1TB硬盘和Windows10操作系统。我的4GBRAM大小可以通过VM安装Ubuntu吗?或者我应该扩展我的RAM大小吗? 最佳答案 至少8GB内存,但我建议使用16GB,因为您需要一些内存用于Windows和所有办公工具。https://fr.hortonworks.com/tutorial/sandbox-deployment-and-install-guide/section/1/ 关

spring - 我如何使用带有注解驱动配置的 Spring Data HBase

我对SpringData和HBase很感兴趣。我将这个jar包含在我的pom中:org.springframework.dataspring-data-hadoop1.0.1.RELEASE我看到somereferences关于使用HbaseTemplate类。这些例子都有基于XML的SpringHBase配置。我正在使用注释基础配置,//defaultHBaseconfiguration//wirehbaseconfiguration(usingdefaultname'hbaseConfiguration')intothetemplate我如何通过注释来做到这一点,例如:@Bean@

eclipse - 连接到 Eclipse 中的 Hortonworks VM 以进行 MapReduce 作业的 ConnectTimeoutException?

我正在尝试在Eclipse中运行MapReduce作业。我正在尝试连接到HortonworksVM并读取HDFS中的文件之一。这是HDFS中文件的显示:我正在使用以下代码访问该文件:FileInputFormat.setInputPaths(conf,newPath("hdfs://127.0.0.1:8020/user/hue/smallClaimData.txt"));我非常有信心这个路径是正确的,因为我第一次尝试运行它时出现错误:“文件不存在”。我添加了用户文件夹名称(我第一次省略了)并且错误消失了。因此,我假设我在HDFS中正确引用了这个文件但是,当我运行mapreduce作业

hadoop - 无法通过 SSH 连接到 VM,导致使用 bdutil 安装 Hadoop 出现问题

我已经解决了这个网站上围绕这个问题的大部分问题,但似乎没有任何帮助。基本上我想做的是通过Google提供的bdutil脚本在我的VM上实例化一个Hadoop实例,但是问题似乎与我无法通过ssh进入VM实例有关。我已经为此苦苦挣扎了几天,非常感谢您的帮助。以下是我遵循的步骤:为了引导您完成这些步骤,我刚刚创建了一个新的VM我可以毫无问题地通过开发者控制台进行SSH下面是系统信息和操作系统:uname–aLinuxarchipelago-vm12.6.32-431.20.3.el6.x86_64#1SMPThuJun1921:14:45UTC2014tail/etc/redhat-rele

java - 如何在 Hortonworks VM 上的 Spark 上运行 .jar?

我是HortonworksVM的新手,我很困惑。我正在尝试在Spark上运行.jar文件。通常我通过运行在Windows上进行本地测试spark-submit--driver-memory4g--classen.name.ClassName%CODE%/target/program.jar但由于我需要Hive,所以我想我应该转移到HortonworksVM以在本地进行测试。现在,我已经通过Hortonworks的Ambari的HDFS文件GUI将我的.jar和输入文件上传到HDFS(到/tmp/my_code目录)。接下来是什么?我也找到了命令行,但是如何从VM的命令行访问HDFS上的

oracle - Sqoop导入作业报错org.kitesdk.data.ValidationException for Oracle

Oracle11g的Sqoop导入作业因错误而失败ERRORsqoop.Sqoop:GotexceptionrunningSqoop:org.kitesdk.data.ValidationException:Datasetname81fdfb8245ab4898a719d4dda39e23f9_C46010.HISTCONTACTisnotalphanumeric(plus'_')完整的命令如下:$sqoopjob--createingest_amsp_histcontact--import--connect"jdbc:oracle:thin:@:/"--username"c46010

xml - 可以将 HCatalog 与 XML 一起使用吗? -- 在 Cloudera VM 上执行 ETL

我正在处理一个大数据类的项目,我已经在本地安装了ClouderaQuickstartVM以在我的数据集上运行一些基本任务并熟悉一些工具。我正在学习一个教程,其中涉及将数据集移动到HDFS,基于数据集文件创建一个HCatalog表,然后在该表上运行Hive和/或Pig命令。问题是我的数据是一个大的XML文件,HCatalog中的标准分隔符选项不适用。有没有办法将XML导入HCatalog?如果不是,在我的XML数据集上使用Hive或Pig的最佳方法是什么?编辑:我的文件来自公共(public)StackOverflow数据集。我正在使用posts.xml文件。它非常大(25GB),我无法

Hadoop - "Code moves near data for computation"

我只想澄清这句话“代码移动到数据附近进行计算”,这是否意味着开发人员编写的所有javaMR都部署到集群中的所有服务器?如果1为真,如果有人更改了MR程序,它如何分发到所有服务器?谢谢 最佳答案 Hadoop将MR作业的jar放入HDFS-它的分布式文件系统。需要它的任务跟踪器将从那里获取它。所以它分发到一些节点,然后由实际需要它们的节点按需加载。通常这需要意味着节点将要处理本地数据。Hadoop集群在作业方面是“无状态的”。每次工作都被视为新事物,并且不使用前一个工作的“副作用”。确实,当要在大型集群上处理少量文件(或准确地说是拆分

Oracle VM VirtualBox安装的Centos7无法上网

OracleVMVirtualBox安装的Centos7无法上网解决方法:1、设置第一块网卡使用仅主机网络。2、设置第二块网卡使用网络地址转换(NAT)。 

Oracle VM VirtualBox安装的Centos7无法上网

OracleVMVirtualBox安装的Centos7无法上网解决方法:1、设置第一块网卡使用仅主机网络。2、设置第二块网卡使用网络地址转换(NAT)。