hortonworks-dataflow

hadoop - Hive 不会在 Hortonworks 2.2.4 中运行

我刚刚下载了HortonworksSandbox2.2.4，当我关注Hortonwork'stutorialonHive时我注意到了，我明白了，HCatClienterroroncreatetable:{"statement":"usedefault;createtablenyse_stocks(`exchange`string,`stock_symbol`string,`date`string,`stock_price_open`float,`stock_price_high`float,`stock_price_low`float,`stock_price_close`float,

中运 Hortonworks SLF4J HiveConf SLF4 hadoop hive hortonworks-data-platform

java - 未入门Hortonworks沙盒中的Datanode进程手动设置

我是Hortonworks沙箱的新手。我正在尝试通过此链接在我的系统(ubuntu-14.04)上手动设置它。http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.2.4/HDP_Man_Install_v224/index.html#validating_core_hadoop.在运行下面的命令以运行Datanode之后。/usr/hdp/current/hadoop-hdfs-datanode/../hadoop/sbin/hadoop-daemon.sh--config$HADOOP_CONF_DIRstartdatanodeDa

Hortonworks Datanode hadoop java hortonworks-data-platform

scala - 如何在 HDP(Hortonworks 数据平台)中安装 Scala 库

提前感谢您花时间阅读本文，抱歉我的英语不好。我正在尝试使用Spark流进行实时数据处理。我在HDP(Hortonworks数据平台)中安装了Spark，对于我的流程，我需要为JSONparsing安装一个scala库。我在互联网上阅读了很多关于此的内容，但它只是针对一个简单的SparkCluster，而不是针对HDP和CDH之类的解决方案，我尝试调整该解决方案但我做不到，我找不到任何scala文件来安装它.有人知道可以帮助我的解决方案或提示吗？谢谢最佳答案要在Zeppelin中加载Spark的依赖项，您需要创建一个新单元并使用以

中安何在 section interpreter scala hadoop apache-spark spark-streaming hortonworks-data-platform

hadoop - Hortonworks 数据平台 : High load causes node restart

我已经使用HortonworksDataPlatform2.5设置了一个Hadoop集群。我正在使用1个主节点和5个从(工作)节点。每隔几天，我的一个(或多个)工作节点就会承受高负载，并且似乎会自动重启整个CentOS操作系统。重新启动后，Hadoop组件不再运行，必须通过Amabri管理UI手动重新启动。这里是“崩溃”节点的屏幕截图(大约4小时前在高负载值后重新启动):这是其他“健康”工作节点之一的屏幕截图(所有其他工作节点都具有相似的值):节点在5个工作节点之间交替崩溃，主节点似乎运行没有问题。什么会导致这个问题？这些高负载值从何而来？最佳答案

Hortonworks restart section code image hadoop crash load hortonworks-data-platform

hadoop - 无法将数据加载到 Pig 中的 Hortonworks 沙箱

嗨，我是hadoop的新手，当我第一次运行这个命令时LOAD'Pig/iris.csv'usingPigStorage(',')弹出错误:LOAD'Pig/iris.csv'usingPigStorage(',');2014-09-0506:04:04,853[main]INFOorg.apache.pig.Main-ApachePigversion0.12.1.2.1.1.0-385(rexported)compiledApr162014,15:59:002014-09-0506:04:04,885[main]INFOorg.apache.pig.Main-Loggingerrorm

沙箱 Hortonworks 34 section apache hadoop apache-pig hortonworks-data-platform

hadoop - 使用 Google Cloud Dataflow 合并 Google Cloud Storage 中的文件

NathanMarz在他的书“BigData”中描述了如何维护HDFS中的数据文件。以及如何使用他的Pail优化文件大小以尽可能接近原生HDFSblock大小在MapReduce之上运行的库.是否有可能在GoogleCloudStorage中获得相同的结果？？我可以使用GoogleCloudDataflow吗？而不是MapReduce用于此目的？最佳答案 GoogleCloudStorage允许组合对象，让您可以将一个对象存储在多个部分中，然后将它们组合起来，一次最多可组合32个部分，总共1024个组成部分。API中提供了此功能。

Google Cloud noreferrer noopener nofollow hadoop hdfs google-cloud-storage google-cloud-dataflow lambda-architecture

hadoop - Windows 平台上是否有 Hortonwork Data 平台的管理器

大家好，我是Hortonworks数据平台的新手。我在WindowsServer2012R2上安装了HDP2.4。截至目前，我正在命令提示符下运行我的Pig作业，但我想知道Cloudera中是否有像HUE这样的编辑器和像clouderaManager这样的HortonsManager。我在Windows操作系统上工作，所以我认为Hortonworks的Ambari也不支持。请在这方面帮助我。最佳答案像clouderamanager一样，对于hortonworks，ambari-service是存在的，但它仅适用于基于ubuntu

Hortonwork 台上 section Windows stackoverflow hadoop hive apache-pig hortonworks-data-platform hue

hadoop - 如何使用 Hortonworks hdp SSH 客户端释放非 DFS 已用空间？

我正在使用HDP自学学习大数据基础知识。今天我遇到了以下问题:HDFS磁盘使用率为91%。使用非DFS时31.2GB/41.6GB(74.96%)。我到底应该怎么做才能释放磁盘空间？是否可以从沙箱hdpSSH客户端进行操作？我在Virtualbox上运行HPD。我已经从沙箱hdpSSH客户端执行了命令:hdfsdfs-du-h/但这显然是HDFS数据使用。12.2M/app-logs1.5G/apps0/ats860.9K/demo724.4M/hdp0/livy2-recovery0/mapred0/mr-history479.6M/ranger176.6K/spark2-histo

Hortonworks hadoop section 沙箱 code hdfs hortonworks-data-platform

hadoop - OSX 上 Hortonworks 沙盒上的 Spring XD

我正在尝试使用xd-singlenode和xd-shell将SpringXD流存储到Hortonworks沙箱版本2.0。没有创建xd目录，也没有流存储在Hortonworkshadoophdfs中。环境:AppleOSX10.9.3，HortonworksSandbox在OracleVirtualbox(RedHat64位)中运行，使用桥接模式网络。我在我的WiFi路由器中为VirtualboxMAC地址分配了一个固定的IP地址(192.168.178.30)。当我使用OSXSafari浏览到192.168.178.30:8000时，我可以使用Hortonworks菜单，例如文件浏览

Hortonworks hadoop code hdfs osx-mavericks hortonworks-data-platform spring-xd

eclipse - 连接到 Eclipse 中的 Hortonworks VM 以进行 MapReduce 作业的 ConnectTimeoutException？

我正在尝试在Eclipse中运行MapReduce作业。我正在尝试连接到HortonworksVM并读取HDFS中的文件之一。这是HDFS中文件的显示:我正在使用以下代码访问该文件:FileInputFormat.setInputPaths(conf,newPath("hdfs://127.0.0.1:8020/user/hue/smallClaimData.txt"));我非常有信心这个路径是正确的，因为我第一次尝试运行它时出现错误:“文件不存在”。我添加了用户文件夹名称(我第一次省略了)并且错误消失了。因此，我假设我在HDFS中正确引用了这个文件但是，当我运行mapreduce作业

ConnectTimeoutException Hortonworks hadoop apache java eclipse mapreduce hdfs hortonworks-data-platform

123 4 5