草庐IT

VM_global_library

全部标签

eclipse - 连接到 Eclipse 中的 Hortonworks VM 以进行 MapReduce 作业的 ConnectTimeoutException?

我正在尝试在Eclipse中运行MapReduce作业。我正在尝试连接到HortonworksVM并读取HDFS中的文件之一。这是HDFS中文件的显示:我正在使用以下代码访问该文件:FileInputFormat.setInputPaths(conf,newPath("hdfs://127.0.0.1:8020/user/hue/smallClaimData.txt"));我非常有信心这个路径是正确的,因为我第一次尝试运行它时出现错误:“文件不存在”。我添加了用户文件夹名称(我第一次省略了)并且错误消失了。因此,我假设我在HDFS中正确引用了这个文件但是,当我运行mapreduce作业

hadoop - 无法通过 SSH 连接到 VM,导致使用 bdutil 安装 Hadoop 出现问题

我已经解决了这个网站上围绕这个问题的大部分问题,但似乎没有任何帮助。基本上我想做的是通过Google提供的bdutil脚本在我的VM上实例化一个Hadoop实例,但是问题似乎与我无法通过ssh进入VM实例有关。我已经为此苦苦挣扎了几天,非常感谢您的帮助。以下是我遵循的步骤:为了引导您完成这些步骤,我刚刚创建了一个新的VM我可以毫无问题地通过开发者控制台进行SSH下面是系统信息和操作系统:uname–aLinuxarchipelago-vm12.6.32-431.20.3.el6.x86_64#1SMPThuJun1921:14:45UTC2014tail/etc/redhat-rele

java - 如何在 Hortonworks VM 上的 Spark 上运行 .jar?

我是HortonworksVM的新手,我很困惑。我正在尝试在Spark上运行.jar文件。通常我通过运行在Windows上进行本地测试spark-submit--driver-memory4g--classen.name.ClassName%CODE%/target/program.jar但由于我需要Hive,所以我想我应该转移到HortonworksVM以在本地进行测试。现在,我已经通过Hortonworks的Ambari的HDFS文件GUI将我的.jar和输入文件上传到HDFS(到/tmp/my_code目录)。接下来是什么?我也找到了命令行,但是如何从VM的命令行访问HDFS上的

xml - 可以将 HCatalog 与 XML 一起使用吗? -- 在 Cloudera VM 上执行 ETL

我正在处理一个大数据类的项目,我已经在本地安装了ClouderaQuickstartVM以在我的数据集上运行一些基本任务并熟悉一些工具。我正在学习一个教程,其中涉及将数据集移动到HDFS,基于数据集文件创建一个HCatalog表,然后在该表上运行Hive和/或Pig命令。问题是我的数据是一个大的XML文件,HCatalog中的标准分隔符选项不适用。有没有办法将XML导入HCatalog?如果不是,在我的XML数据集上使用Hive或Pig的最佳方法是什么?编辑:我的文件来自公共(public)StackOverflow数据集。我正在使用posts.xml文件。它非常大(25GB),我无法

java - Apache Spark : Update global variables in workers

我很好奇下面的简单代码是否可以在分布式环境中工作(它在独立环境中可以正常工作)?publicclassTestClass{privatestaticdouble[][]testArray=newdouble[4][];publicstaticvoidmain(String[]args){for(inti=0;itestRDD=sc.textFile("testfile",4).mapPartitionsWithIndex(newFunction2,Iterator>(){@OverridepublicIteratorcall(Integerind,Iterators){/*Update

Hadoop 和 JZMQ - java.library.path 中没有 jzmq

我正在尝试让JZMQ代码在Hadoop集群上的一个节点上运行。我在该节点上的-/usr/local/lib目录下安装了必要的nativejmzq库文件。这是列表-libjzmq.alibjzmq.lalibjzmq.solibjzmq.so.0libjzmq.so.0.0.0libzmq.alibzmq.lalibzmq.solibzmq.so.3libzmq.so.3.0.0pkgconfig在我的shell脚本中,如果我运行下面的Java命令,它绝对可以正常工作-java-Djava.library.path=/usr/local/lib-classpathclass/:lib/:

Oracle VM VirtualBox安装的Centos7无法上网

OracleVMVirtualBox安装的Centos7无法上网解决方法:1、设置第一块网卡使用仅主机网络。2、设置第二块网卡使用网络地址转换(NAT)。 

Oracle VM VirtualBox安装的Centos7无法上网

OracleVMVirtualBox安装的Centos7无法上网解决方法:1、设置第一块网卡使用仅主机网络。2、设置第二块网卡使用网络地址转换(NAT)。 

java - 无法在 Cloudera VM 中使用 java(在 Eclipse 中)连接到 hbase

我正在尝试在ClouderaVM中使用Java(在Eclipse中)连接到Hbase,但出现以下错误。能够在命令行中运行相同的程序(通过将我的程序转换为jar)我的java程序`importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.HColumnDescriptor;importorg.apache.hadoop.hbase.HTableDescriptor;importorg.apache.had

hadoop - Pyspark Mac NativeCodeLoader : Unable to load native-hadoop library for your platform. .. 在适用的情况下使用内置 java 类

这会阻止PySpark在JupyterNotebook中正常运行。我知道原生hadoop库仅在*nix平台上受支持。该库不适用于Cygwin或MacOSX平台。我怎样才能正确安装PySpark以在我的Jupyter笔记本中运行 最佳答案 下载hadoop二进制文件(link)并将其放在您的主目录中(您可以根据需要选择不同的hadoop版本并相应地更改后续步骤)使用以下命令将文件夹解压缩到您的主目录中。tar-zxvfhadoop_file_name现在将exportHADOOP_HOME=~/hadoop-2.8.0添加到您的.ba