vm-cdh-cluster

hadoop - Hive 中字符串的 CLUSTER BY

我在Hive中有以下查询CREATETABLEbucketed_users(idINT,nameSTRING,FlatNumberINT)CLUSTEREDBY(id)INTO4BUCKETS;是否只能在INT列(也在FlatNumber)上进行聚类，或者我们可以定义自定义函数，该函数将提供划分为聚类桶的逻辑？最佳答案可以在任何列上创建集群/桶，对于非数字列，HIVE将使用HASH(col)%"numberofbuckets"来查找记录的桶。关于hadoop-Hive中字符串的CL

hadoop - 如何在 VM 上永久存储 hbase 表

我正在使用批量加载在VM上的HBASE中做一些简单的事情。想知道如何在HBASE中永久保留表。如果我重新启动VM表就消失了，我们是否有任何命令来永久存储它。最佳答案如果您以本地模式启动HBase(即使用文件系统而不是HDFS)，则默认情况下所有数据都保存在/tmp中。某些Linux系统会在重启时删除/tmp(即打开和关闭虚拟机)。三种处理方式使用HDFS存储您的数据更改您的hbase-site.xml文件以指向除/tmp之外的数据位置永远、永远不要关闭您的VM(说真的，不要这样做)要设置的正确属性，引用自HBasebook:hb

何在 hadoop section hbase stackoverflow hive

logging - cdh4 hadoop 中作业的详细日志在哪里？

我只是在hdfs中找到jobhistory/home/mps/cdh/users/history/done_intermediate/mps/job_1405497023620_0009-1405505656182-mps-simjoin%2D1.0.jar-1405505683781-0-0-FAILED-default.jhist但是这个工作历史信息远非像这样的详细信息:{"type":"TASK_FAILED","event":{"org.apache.hadoop.mapreduce.jobhistory.TaskFailed":{"taskid":"task_14054970

志在 logging 34 section code hadoop mapreduce bigdata cloudera

hadoop - 使用cloudera quickstart vm 在配置单元中创建表被卡住了

我正在尝试使用clouderaquickstartvm的配置单元CLI在配置单元中创建一个表。该命令被卡住，甚至在很长一段时间后也没有发生任何事情。我错过了什么吗？如果有人可以为此提供帮助，我们将不胜感激。[cloudera@quickstart~]$配置单元使用jar:file:/usr/jars/hive-common-1.1.0-cdh5.5.0.jar!/hive-log4j.properties中的配置初始化日志记录警告:HiveCLI已弃用，建议迁移到Beeline。hive>创建表test_dept(department_idint，department_namestri

中创配置单 section hadoop hive sqoop hiveql cloudera-quickstart-vm

hadoop - 在 Hadoop 2.7.2(CentOS 7) Cluster 中，Datanode 启动但没有连接到 namenode

我安装了一个三节点hadoop集群。master和slave节点单独启动，但datanode没有显示在namenodewebUI中。datanode的日志文件显示以下错误:2016-06-1821:23:53,980INFOorg.apache.hadoop.ipc.Client:Retryingconnecttoserver:namenode/192.168.1.100:9000.Alreadytried0time(s);retrypolicyisRetryUpToMaximumCountWithFixedSleep(maxRetries=10,sleepTime=1000MILLI

Datanode namenode gt lt property hadoop

java - 如何更新 "Practical Graph Analytics with Apache Giraph"示例以在当前 Cloudera Quickstart VM 上运行

我是Hadoop/Giraph和Java的新手。作为任务的一部分，我在其上下载了ClouderaQuickstartVM和Giraph。我正在使用这本书，名为“使用ApacheGiraph进行实用图形分析；作者:Shaposhnik、Roman、Martella、Claudio、Logothetis、Dionysios”，我尝试从中运行第111页上的第一个示例(TwitterFollowershipGraph)。编辑:显然，书中的示例(2015年出版)所依赖的Hadoop版本比当前(2017年)版本的ClouderaQuickstartVM提供的版本要旧得多。如何让示例运行？原帖:运行

Quickstart amp gt lt apache java maven hadoop cloudera-quickstart-vm giraph

hadoop - 我可以将 Hadoop 2.0.0-cdh4.5.0 与 Cassandra 2.0.5 一起使用吗？

我正在尝试将Hadoop2.0(特别是Cloudera4.5发行版)与Cassandra2.0.4数据库一起使用。在解决了一系列问题之后(例如确保Hadoop使用1.7jdk运行)我陷入了这个错误:Exceptioninthread"main"java.lang.IncompatibleClassChangeError:Foundinterfaceorg.apache.hadoop.mapreduce.JobContext,butclasswasexpectedatorg.apache.cassandra.hadoop.AbstractColumnFamilyInputFormat.g

Cassandra hadoop section cloudera

hadoop - 安装 Spark Cluster，Hive 的问题

我正在尝试启动Spark/Shark集群，但一直遇到同样的问题。我已按照https://github.com/amplab/shark/wiki/Running-Shark-on-a-Cluster上的说明进行操作并按照说明处理Hive。我认为SharkDriver正在使用另一个版本的Hadoopjar，但不确定原因。这是详细信息，任何帮助都会很棒。星火/鲨鱼0.9.0ApacheHadoop2.3.0Amplabshive0.11斯卡拉2.10.3Java7我已经安装了所有东西，但我收到了一些弃用警告，然后是一个异常:14/03/1411:24:47信息Configuration.d

Cluster hadoop java apache apache-spark shark-sql

python - 在 Pyspark-Cluster 模式下的工作节点上安装外部库

我正在为NLP处理等开发pyspark。我正在使用TextBlobPython库。通常，在独立模式下，安装外部Python库很容易。在集群模式下，我面临着在工作节点上远程安装这些库的问题。我无法访问每台工作机器以在Python路径中安装这些库。我尝试使用Sparkcontextpyfiles选项传送.zip文件...但问题是这些Python包需要安装在工作机器上。是否有不同的方法可以使这个lib-Textblob在Python路径中可用？最佳答案 ItriedtouseSparkcontextpyfilesoptiontoship

Pyspark-Cluster Pyspark section Python strong hadoop nlp apache-spark textblob

java - Cloudera Quickstart VM illegalArguementException : Wrong FS: hdfs: expected: file:

我有一个简单的java代码可以将一个文本文件从本地复制到hdfs。我正在使用cloudera的quickstart虚拟机。Configurationconf=newConfiguration();conf.addResource(newPath("/etc/hadoop/conf/core-site.xml"));conf.addResource(newPath("/etc/hadoop/conf/hdfs-site.xml"));FileSystemfs=FileSystem.get(conf);fs.copyFromLocalFile(newPath("/home/cloudera

illegalArguementException Quickstart hadoop cloudera FileSystem java eclipse cloudera-quickstart-vm

16 17 181920 21 22