CLOUDERA

hadoop - 将一个本地文件放入多个HDFS目录

我正在为CDH5.3集群安装编写完整性测试。我们有一个测试用例，将在具有1000个分区的目录上创建一个Hive表，然后查询随机分区。本来是用一系列for循环做的，搞了好几个小时:hadoopfs-mkdir-p/hdfs/directory/partition{1...1000}然后:hadoopfs-put/path/to/local/file/hdfs/directory/partitionX将一个本地文件传递到多个目录只会引发错误，但使用for循环需要数小时才能完成。-copyFromLocal抛出与-put类似的错误。此外，-put到第一个目录并使用for循环复制也需要相当多的

放入 hadoop section partition hdfs cloudera

java - 无法在 Cloudera VM 中使用 java(在 Eclipse 中)连接到 hbase

我正在尝试在ClouderaVM中使用Java(在Eclipse中)连接到Hbase，但出现以下错误。能够在命令行中运行相同的程序(通过将我的程序转换为jar)我的java程序`importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.HColumnDescriptor;importorg.apache.hadoop.hbase.HTableDescriptor;importorg.apache.had

java Cloudera hadoop apache eclipse hbase

hadoop - 将文件从远程 Unix 和 Windows 服务器复制到 HDFS，无需中间暂存

如何在不从命令行进行中间暂存的情况下将文件从远程Unix和Windows服务器复制到HDFS？最佳答案您可以使用以下命令:hadoopfs-cp/user/myuser/copyTestFolder/*hdfs://remoteServer:8020/user/remoteuser/copyTestFolder/反之亦然，从服务器复制到本地机器。您还可以阅读hadoopdocumentation. 关于hadoop-将文件从远程Unix和Windows服务器复制到HDFS，无需中间暂

Windows hadoop section copyTestFolder hdfs cloudera hortonworks-data-platform biginsights

scala - 使用 HBase 的 Spark 作业失败

我运行的任何涉及HBase访问的Spark作业都会导致以下错误。我自己的工作是在Scala中，但提供的python示例以相同的方式结束。集群是Cloudera，运行CDH5.4.4。相同的作业在使用CDH5.3.1的不同集群上运行良好。非常感谢任何帮助!...15/08/1521:46:30WARNTableInputFormatBase:initializeTablecalledmultipletimes.Overwritingconnectionandtablereference;TableInputFormatBasewillnotclosetheseoldreferencesw

scala HBase TableInputFormatBase section java hadoop apache-spark cloudera

hadoop - 无法启动 Cloudera Manager Server，因为 RuntimeException : Upgrade not allowed from CM3. x

我在安装ClouderaManager(5.8.3版)时遇到了问题。我安装了cloudera-manager-agent-5.8.3-1.cm583.p0.8.el6.x86_64，cloudera-manager-server-5.8.3-1.cm583.p0.8.el6.x86_64,CentOS6.564位上的cloudera-manager-daemons-5.8.3-1.cm583.p0.8.el6.x86_64->使用$rpm-Uvh[包名]安装mysql并设置配置文件(/etc/cloudera-manager-server/db.properties)但是我联系了错误信

RuntimeException Cloudera springframework factory java hadoop hadoop-yarn cloudera-cdh cloudera-manager

hadoop - 如何使用 Yarn 在 Cloudera 上添加 Spark 工作节点

我们有cloudera5.2，用户希望开始使用Spark的全部潜力(在分布式模式下，它可以利用HDFS的数据局部性)，该服务已经安装并且可以在cloudera管理器状态(在home页面)但是当单击服务然后单击“实例”时，它只显示历史服务器角色，而在其他节点中显示网关服务器角色。根据我对Spark架构的理解，你有一个主节点和工作节点(与HDFS数据节点一起生活)所以在cloudera管理器中我尝试了“添加角色实例”，但只有“网关”角色可用。如何将Sparks工作节点(或执行程序)角色添加到具有HDFS数据节点的主机？还是没有必要(我认为由于yarn，yarn负责创建执行程序和应用程序主机

Cloudera hadoop Spark section Standalone apache-spark cloudera-cdh cloudera-manager

hadoop - Hadoop/Spark 生态系统中的数据移动

我有一个基本问题，我希望能更好地理解它:背景假设我有一个巨大的CSV文件(50GB)，我想将其提供给数据科学团队进行分析。理想情况下，团队中的每个成员都能够使用他们选择的语言与数据进行交互，数据不需要经常移动(考虑到它的大小)并且所有人都可以灵活地访问计算资源。建议的解决方案ApacheSpark似乎是满足上述要求的解决方案的当前领先者。Scala、Python、SQL和R都能够在灵活的计算资源之上(如果利用DataBricks、Azure、AWS、Cloudera等云提供商)访问其所在位置的数据。问题以MicrosoftAzure/HDInsight域为例。假设我们要将这个大型CSV

hadoop hdinsight strong section apache-spark cloudera azure-hdinsight databricks

apache-spark - Apache Zeppelin + Spark 的按需用户集群？

我们使用cloudera来部署一个zeppelin-spark-yarn-hdfs集群。现在，只有一个zeppelin和spark实例，所有sparknotebook的执行都会影响到每个用户。例如，如果我们停止用户笔记本中的spark上下文，它会影响所有其他用户的笔记本。我已经看到zeppelin中有一个选项可以隔离解释器，但是有没有办法根据需要为每个用户提供自己的“集群”？也许使用Docker并使用zeppelin和spark为每个用户构建一个图像，并将他们的资源限制为用户集群提供的资源？我完全不知道如何实现它，或者它是否可能，但我的理想场景是像数据block那样的方法。在那里你可以

需用 apache-spark Zeppelin section spark hadoop hadoop-yarn cloudera apache-zeppelin

apache-spark - Kerberos Cloudera Hadoop 的 livy curl 请求错误

在kerberizedCDH5.10.x上配置了livy服务器，它在端口8998上运行良好，但curl请求给出以下错误，curl--negotiate-u:http://xxxxxxx:8998/sessionsError403HTTPERROR:403Problemaccessing/sessions.Reason:GSSException:Novalidcredentialsprovided(Mechanismlevel:FailedtofindanyKerberoscredentails)PoweredbyJetty://无法理解为什么请求没有通过kerberos安全层？

apache-spark Kerberos section strong 票证 hadoop cloudera livy

docker - Cloudera 管理器未运行

我正在尝试在GCP上使用以下docker镜像安装Cloudera:https://www.cloudera.com/documentation/enterprise/5-6-x/topics/quickstart_docker_container.html一旦该过程完成，我将运行以下命令:sudodockerrun--name=quickstart.cloudera--hostname=quickstart.cloudera-d--privileged=true-t-i-p7180:7180-p50070:50070-p80:80-p8888:8888cloudera/quicksta

Cloudera docker code quickstart hadoop google-cloud-platform cloudera-manager

15 16 171819 20 21