草庐IT

Cloudera-CDH

全部标签

scala - 从终端在 Spark scala 中添加外部库

我正在尝试为spark添加外部库,因为我已尝试将这些库放在/usr/lib/spark/lib中。当我成功添加库后运行我的代码时出现错误:未找到。我不知道还有什么地方可以放置jar文件,我使用的是CDH5.7.0 最佳答案 我在深入挖掘后找到了解决方案,我通过在从终端打开sparkshell的同时添加jar解决了这个问题。我使用了下面的代码:spark-shell--jars"dddd-xxx-2.2.jar,xxx-examples-2.2.jar" 关于scala-从终端在Spark

shell - 如何在 OOZIE 中使用正则表达式?

我想检查文件是否存在于给定的HDFS位置。我们可以在fs:exists的帮助下检查文件是否存在于给定的HDFS位置,即如果文件名为test_25082016,在协调工作的帮助下,我们可以获得日期值,即在我们的示例中作为参数today。工作Proppath=/user/cloudera/file/input/test_在workflow.xml中${fs:exists(concat(concat(nameNode,path),today))}${fs:exists(concat(concat(nameNode,path),yesterday))}它按预期工作。但就我而言,我的HDFS位置

hadoop - 并行停用多个 Hadoop DataNode

我要更换HadoopCDH5.7集群中的多台机器。我首先添加了一些新机器并停用了相同数量的现有数据节点。我注意到在停用节点时block被标记为复制不足。这是否意味着我在停用多个节点时会面临风险?我可以并行停用所有节点吗?有没有更好的方法来更换所有机器?谢谢! 最佳答案 很明显,当一个节点关闭(或删除)时,数据复制不足。当您添加新节点并重新平衡时,这将自动修复。实际发生了什么?假设集群上的复制因子是3。当一个节点退役时,存储在其上的所有数据都消失了,该数据的复制因子现在是2(因此处于复制状态)。现在,当您添加一个新节点并重新平衡时,丢

hadoop - MapReduce 作业无法与启用 Kerberos 的 CDH 集群上的 Hbase 对话

我正在编写一个MapReduce应用程序来访问启用了Kerberos的CDH集群上的Hbase数据。我的CDH版本是5.9.0,运行在3个节点上,Kerberos版本是1.10.1。现在,我面临一个问题,希望有人能提供帮助。我的代码:conf.set("hadoop.security.authentication","Kerberos");UserGroupInformation.setConfiguration(conf);UserGroupInformation.loginUserFromKeytab("jj@example.com","jj.keytab");HTabletabl

linux - 如何将文件从本地磁盘传输到 Cloudera 虚拟机? (我已经看过了所以什么也没发现)

这太琐碎了,太琐碎了,我在这里找不到任何东西。所以,我的任务很简单。获取一个简单的.txt文件并将其传输到cloudera中的hdfs目录中。我已经试过了:但运气不好。任何帮助或指导将不胜感激。 最佳答案 假设您已经将文件复制到VM并且您已登录到VM(linux),您应该使用的命令是:hdfsdfs-copyFromLocal如果您没有在HDFS上创建主目录,请先使用以下方法创建它:hdfsdfs-mkdir-p/user/madhav/你在命令中给出的路径在我看来是错误的。它应该看起来像:hdfsdfs-copyFromLocal

java - 使用cloudera hadoop java培训项目时加载类失败

我正在使用clouderaquickstart在java中实现一个hadoop项目:我的cloudera-quickstart版本是5.8.0以下是错误消息:SLF4J:Failedtoloadclass"org.slf4j.impl.StaticLoggerBinder".SLF4J:Defaultingtono-operation(NOP)loggerimplementationSLF4J:Seehttp://www.slf4j.org/codes.html#StaticLoggerBinderforfurtherdetails.17/04/0914:11:36WARNutil.N

hadoop - Impala - 替换表分区中的所有数据

我有一个程序可以生成有关Impala表分区的所有数据。该程序将数据写入HDFS文本文件。如何(物理地)删除以前属于该分区的所有数据,并用转换为Parquet格式的新文本文件中的数据替换它们?如果我使用原始HDFSAPI物理删除组成分区的旧Parquet文件,它会干扰Impala吗? 最佳答案 为您的文本文件创建表格:createexternaltablestg_table(...)location'';外部数据更改后,您必须刷新它:refreshstg_table;然后插入你的目标表insertoverwritetabletarge

hadoop - 在 Cloudera Quickstart VM 中导入所有表时在 Sqoop 中出现错误

当我尝试通过sqoop导入所有表时出现以下错误:sqoopimport-all-tables-m12--connect在此处输入代码"jdbc:mysql://quickstart.cloudera:3306/retail_db"--username=retail_dba--password=cloudera--warehouse-dir=/r/cloudera/sqoop_importPleaseset$ACCUMULO_HOMEtotherootofyourAccumuloinstallation.17/04/2315:29:27INFOsqoop.Sqoop:RunningSqo

hadoop - 心跳到 <hostname> :7182 failed during Cloudera Installation on 3 node cluster

我正在使用ClouderaManager创建一个3节点的cloudera集群。我遵循了cloudera文档:[1]https://www.cloudera.com/documentation/enterprise/latest/topics/cm_ig_install_path_b.html#concept_wkg_kpb_pn登录到cloudera管理器并输入3个节点的主机名后,当我尝试安装它时会出现以下消息:安装失败。无法从代理接收心跳。确保主机的主机名配置正确。确保端口7182可在ClouderaManagerServer上访问(检查防火墙规则)。确保正在添加的主机上未使用端口9

hadoop - Cloudera hadoop数据存储到特定节点

我有10个amazonec2节点集群用于每天的数据处理,我想将所有10个节点用于每天的批处理(仅处理2小时),一旦生成报告数据点,我想关闭5节点,并在一天的其余时间仅使5个节点处于事件状态以进行成本优化。我的复制因子是3。在某些情况下,所有3个数据block(实际和复制block)都存储在我正在关闭的那5个节点中。因此我无法正确读取数据。我能否在cloudera管理器中进行一些设置以将特定数据库或特定表持久保存到给定节点中,这样我在只有5个事件节点时读取数据时不会有任何问题。或任何其他建议将不胜感激。 最佳答案 您可以使用机架感知(