m_vm

eclipse - 连接到 Eclipse 中的 Hortonworks VM 以进行 MapReduce 作业的 ConnectTimeoutException？

我正在尝试在Eclipse中运行MapReduce作业。我正在尝试连接到HortonworksVM并读取HDFS中的文件之一。这是HDFS中文件的显示:我正在使用以下代码访问该文件:FileInputFormat.setInputPaths(conf,newPath("hdfs://127.0.0.1:8020/user/hue/smallClaimData.txt"));我非常有信心这个路径是正确的，因为我第一次尝试运行它时出现错误:“文件不存在”。我添加了用户文件夹名称(我第一次省略了)并且错误消失了。因此，我假设我在HDFS中正确引用了这个文件但是，当我运行mapreduce作业

hadoop - 无法通过 SSH 连接到 VM，导致使用 bdutil 安装 Hadoop 出现问题

我已经解决了这个网站上围绕这个问题的大部分问题，但似乎没有任何帮助。基本上我想做的是通过Google提供的bdutil脚本在我的VM上实例化一个Hadoop实例，但是问题似乎与我无法通过ssh进入VM实例有关。我已经为此苦苦挣扎了几天，非常感谢您的帮助。以下是我遵循的步骤:为了引导您完成这些步骤，我刚刚创建了一个新的VM我可以毫无问题地通过开发者控制台进行SSH下面是系统信息和操作系统:uname–aLinuxarchipelago-vm12.6.32-431.20.3.el6.x86_64#1SMPThuJun1921:14:45UTC2014tail/etc/redhat-rele

hadoop gcutil section 的 ssh google-compute-engine google-cloud-platform google-hadoop

java - 如何在 Hortonworks VM 上的 Spark 上运行 .jar？

我是HortonworksVM的新手，我很困惑。我正在尝试在Spark上运行.jar文件。通常我通过运行在Windows上进行本地测试spark-submit--driver-memory4g--classen.name.ClassName%CODE%/target/program.jar但由于我需要Hive，所以我想我应该转移到HortonworksVM以在本地进行测试。现在，我已经通过Hortonworks的Ambari的HDFS文件GUI将我的.jar和输入文件上传到HDFS(到/tmp/my_code目录)。接下来是什么？我也找到了命令行，但是如何从VM的命令行访问HDFS上的

何在 Hortonworks code jar section java hadoop virtual-machine hortonworks-data-platform

xml - 可以将 HCatalog 与 XML 一起使用吗？ -- 在 Cloudera VM 上执行 ETL

我正在处理一个大数据类的项目，我已经在本地安装了ClouderaQuickstartVM以在我的数据集上运行一些基本任务并熟悉一些工具。我正在学习一个教程，其中涉及将数据集移动到HDFS，基于数据集文件创建一个HCatalog表，然后在该表上运行Hive和/或Pig命令。问题是我的数据是一个大的XML文件，HCatalog中的标准分隔符选项不适用。有没有办法将XML导入HCatalog？如果不是，在我的XML数据集上使用Hive或Pig的最佳方法是什么？编辑:我的文件来自公共(public)StackOverflow数据集。我正在使用posts.xml文件。它非常大(25GB)，我无法

HCatalog Cloudera gt lt item xml hadoop hive

Oracle VM VirtualBox安装的Centos7无法上网

OracleVMVirtualBox安装的Centos7无法上网解决方法：1、设置第一块网卡使用仅主机网络。2、设置第二块网卡使用网络地址转换(NAT)。

VirtualBox 无法 1710295 网卡 img Linux

Oracle VM VirtualBox安装的Centos7无法上网

OracleVMVirtualBox安装的Centos7无法上网解决方法：1、设置第一块网卡使用仅主机网络。2、设置第二块网卡使用网络地址转换(NAT)。

VirtualBox 无法 1710295 网卡 img 操作系统

java - 无法在 Cloudera VM 中使用 java(在 Eclipse 中)连接到 hbase

我正在尝试在ClouderaVM中使用Java(在Eclipse中)连接到Hbase，但出现以下错误。能够在命令行中运行相同的程序(通过将我的程序转换为jar)我的java程序`importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.HColumnDescriptor;importorg.apache.hadoop.hbase.HTableDescriptor;importorg.apache.had

java Cloudera hadoop apache eclipse hbase

python - Pyspark java.lang.OutOfMemoryError : Requested array size exceeds VM limit 错误

我正在运行Pyspark作业:spark-submit--masteryarn-client--driver-memory150G--num-executors8--executor-cores4--executor-memory150Gbenchmark_script_1.pyhdfs:///tmp/data/sample150k128hdfs:///tmp/output/sample150k|tee~/output/sample150k.log工作本身非常标准。它只是抓取一些文件并对它们进行计数。:print(str(datetime.now())+"-Ingestingfiles

OutOfMemoryError Requested PythonRDD spark apache python scala hadoop apache-spark pyspark

hadoop - Quickstart VM Cloudera parcel 无法启动

我无法理解ClouderaQuickstartVM的某些内容。让我尝试通过概述到目前为止的步骤来进行解释。我想使用Kafka编写一些东西来连接到网络服务并获取数据源。我将使用Cloudera5.5quickstartVM作为我的Playground。我需要从包裹中安装CDH，然后才能获得Kafka。通过https://community.cloudera.com/t5/Apache-Hadoop-Concepts-and/cloudera-manager-5-4-0-installing-kafka-parcel-fails/td-p/30615我在ClouderaVM的桌面上看到一个

Quickstart Cloudera service unrecognized information hadoop cloudera-cdh cloudera-manager cloudera-quickstart-vm

java - OpenJDK 客户端 VM - 无法分配内存

我在集群上运行Hadoopmapreduce作业。我收到此错误。OpenJDKClientVMwarning:INFO:os::commit_memory(0x79f20000,104861696,0)failed;error='Cannotallocatememory'(errno=12)ThereisinsufficientmemoryfortheJavaRuntimeEnvironmenttocontinue.Nativememoryallocation(malloc)failedtoallocate104861696bytesforcommittingreservedmemor

OpenJDK java section memory code hadoop mapreduce jvm

12 13 141516 17 18