Cloudera-CDH

java - 无法在 Cloudera VM 中使用 java(在 Eclipse 中)连接到 hbase

我正在尝试在ClouderaVM中使用Java(在Eclipse中)连接到Hbase，但出现以下错误。能够在命令行中运行相同的程序(通过将我的程序转换为jar)我的java程序`importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.HColumnDescriptor;importorg.apache.hadoop.hbase.HTableDescriptor;importorg.apache.had

hadoop - 是否可以直接从文件加载 Parquet 表？

如果我有一个二进制数据文件(它可以转换为csv格式)，有没有办法直接从它加载parquet表？许多教程展示了将csv文件加载到文本表，然后从文本表加载到parquet表。从效率的角度来看，是否可以像我已有的那样直接从二进制文件加载Parquet表？理想情况下使用创建外部表命令。或者我需要先将其转换为csv文件？有文件格式限制吗？最佳答案不幸的是，在Impala中无法读取自定义二进制格式。您应该将文件转换为csv，然后在现有csv文件上创建一个外部表作为临时表，最后插入到从临时csv表读取的最终Parquet表中。ImpalaPa

Parquet hadoop section cloudera-cdh impala

hadoop - 如何将图像文件从 HDFS 目录移动到 HBase？

我有ClouderaCDH5.3.0我在HDFS中有一个目录，其中包含几千兆字节的图像文件。这些文件有多种类型(jpg、png、gif)。对于每个文件picturename.jpg，我希望在HBase中有一行以picturename作为行键，一列包含图像数据。有人可以解释一下我将如何完成这样的事情吗？最佳答案对于背景，HBase将所有内容存储为二进制。你会Put和Get二进制数据。将图像作为二进制文件读取正如您所描述的，HBase表看起来像rowkeycf:data有几种方法可以将数据提取到HBase。使用或不使用mapredu

hadoop HBase code section cloudera-cdh

hadoop - 无法启动 Cloudera Manager Server，因为 RuntimeException : Upgrade not allowed from CM3. x

我在安装ClouderaManager(5.8.3版)时遇到了问题。我安装了cloudera-manager-agent-5.8.3-1.cm583.p0.8.el6.x86_64，cloudera-manager-server-5.8.3-1.cm583.p0.8.el6.x86_64,CentOS6.564位上的cloudera-manager-daemons-5.8.3-1.cm583.p0.8.el6.x86_64->使用$rpm-Uvh[包名]安装mysql并设置配置文件(/etc/cloudera-manager-server/db.properties)但是我联系了错误信

RuntimeException Cloudera springframework factory java hadoop hadoop-yarn cloudera-cdh cloudera-manager

hadoop - 如何使用 Yarn 在 Cloudera 上添加 Spark 工作节点

我们有cloudera5.2，用户希望开始使用Spark的全部潜力(在分布式模式下，它可以利用HDFS的数据局部性)，该服务已经安装并且可以在cloudera管理器状态(在home页面)但是当单击服务然后单击“实例”时，它只显示历史服务器角色，而在其他节点中显示网关服务器角色。根据我对Spark架构的理解，你有一个主节点和工作节点(与HDFS数据节点一起生活)所以在cloudera管理器中我尝试了“添加角色实例”，但只有“网关”角色可用。如何将Sparks工作节点(或执行程序)角色添加到具有HDFS数据节点的主机？还是没有必要(我认为由于yarn，yarn负责创建执行程序和应用程序主机

Cloudera hadoop Spark section Standalone apache-spark cloudera-cdh cloudera-manager

apache-spark - Kerberos Cloudera Hadoop 的 livy curl 请求错误

在kerberizedCDH5.10.x上配置了livy服务器，它在端口8998上运行良好，但curl请求给出以下错误，curl--negotiate-u:http://xxxxxxx:8998/sessionsError403HTTPERROR:403Problemaccessing/sessions.Reason:GSSException:Novalidcredentialsprovided(Mechanismlevel:FailedtofindanyKerberoscredentails)PoweredbyJetty://无法理解为什么请求没有通过kerberos安全层？

apache-spark Kerberos section strong 票证 hadoop cloudera livy

docker - Cloudera 管理器未运行

我正在尝试在GCP上使用以下docker镜像安装Cloudera:https://www.cloudera.com/documentation/enterprise/5-6-x/topics/quickstart_docker_container.html一旦该过程完成，我将运行以下命令:sudodockerrun--name=quickstart.cloudera--hostname=quickstart.cloudera-d--privileged=true-t-i-p7180:7180-p50070:50070-p80:80-p8888:8888cloudera/quicksta

Cloudera docker code quickstart hadoop google-cloud-platform cloudera-manager

solr - Hadoop 创建一个索引并将其添加到分布式 SOLR 中……这可能吗？我应该使用 Nutch 吗？ ..Cloudera？

我可以使用MapReduce框架创建索引并以某种方式将其添加到分布式Solr中吗？我有大量信息(日志文件和文档)将通过互联网传输并存储在我的数据中心(或亚马逊)中。它需要通过我们复制的Solr安装进行解析、索引和最终搜索。这是我提出的架构:使用MapReduce框架(Cloudera、Hadoop、Nutch，甚至DryadLinq)为索引准备这些文档将这些文档索引为Lucene.NET/Lucene(java)兼容的文件格式将该文件部署到我所有的Solr实例激活那个复制的索引如果可以的话，我需要选择一个MapReduce框架。由于Cloudera是供应商支持的，并且有大量补丁未包含在

hellip 并将 strong Nutch Hadoop solr solrnet faceted-search

hadoop - 如何通过 Cloudera Manager 启用 webhdfs？

Cloudera将webhdfs滚动到最新的cd3u4，但我无法找到可以启用此功能的位置。我意识到有一个条目dfs.webhdfs.enabled您可以在hdfs-site.xml中手动编辑。在cdh3发行版中，是否有一个安全的地方可以放置dfs.webhdfs.enabled配置？有人可以帮我指出正确的方向吗？最佳答案如果你想使用WebHDFS，你必须先启用它。如何？在conf/hdfs-site.xml中设置以下属性:dfs.webhdfs.enabledtrue注意:如果要在安全集群中使用WebHDFS，则必须设置其他属性

Cloudera Manager section WebHDFS hadoop hdfs

hadoop - Cloudera-Agent 给出错误 - 'Hostname is invalid; it contains an underscore character.'

我正在尝试使用Cloudera-Manager安装程序在4个虚拟机上设置一个HBase集群(按照安装指南中的建议)。Cloudera-Manager版本为4.6.1，CDH版本为4.3，操作系统为CentOS-6.4。但是在安装包裹并且云时代代理尝试启动之后，报告以下错误:'主机名无效；它包含一个下划线字符。来自/usr/lib64/cmf/agent/src/cmf/agent.py:315.我可以在agent.py的第315行看到一个下划线('_')检查主机名。交叉检查了我们之前的CDH3.4设置，没有这样的验证。开发人员/用户是否可以确认检查是否相关以及下划线('_')是否未在C

Cloudera-Agent underscore 下划 section 39 hadoop hbase cloudera

9 10 111213 14 15