草庐IT

CLOUDERA

全部标签

java - Cloudera 中的 WordCount 作业成功但 reducer 的输出与 mapper 的输出相同

这个程序是用Cloudera编写的。这是我创建的驱动程序类。importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Job;importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat;importorg.apache.hadoo

hadoop - 如何删除 Hive 中的两个分区列之一?

我创建了一个包含两个分区列的配置单元表,例如col1和col2,现在出于某些分析目的,我希望删除col2分区。基本上我希望从分区列列表中删除列-col2,但我不应该丢失col2中的数据。很明显,最终表应仅由col1分区,而col2也应存在于最终分区表中,但作为普通列而不是分区列。请提出前进的方向。 最佳答案 下面是最好的方法之一。只需更新配置单元分区:ALTERTABLEPARTITION(year=2018,month=05)SETLOCATION'hdfs://some/temp/location/tale_name/2018/

java - 使用 oozie java api 读取 oozie 捕获输出元素

我正在使用Ooziejava客户端Api从我的java程序启动shell操作。我想从我的java程序中读取shell操作的捕获输出元素。我尝试使用下面的功能。但是,我遇到了NullPointerException。org.apache.oozie.DagELFunctions.wf_actionData(StringactionName)这是使用Java客户端API提交Oozie作业的java程序。publicclassOozieSample{publicstaticvoidmain(String[]args)throwsOozieClientException,Interrupted

hadoop - 如何更改 hadoop 中的 super 组?

drwxrwxrwx-hdfssupergroup02017-10-2309:15/benchmarksdrwxr-xr-x-clouderasupergroup02018-05-0717:31/datadrwxr-xr-x-hbasesupergroup02018-05-1415:36/hbasedrwxr-xr-x-solrsolr02017-10-2309:18/solrdrwxrwxrwt-hdfssupergroup02018-05-1618:13/tmpdrwxrwxrwx-hdfssupergroup02018-04-2410:32/userdrwxr-xr-x-hdfs

java - 使用 Cloudera 5.14 和 Spark2 : Livy can't find its own JAR files 配置 Livy

我是Cloudera的新手,正在尝试将工作负载从运行Ambari和Livy和Spark2.2.x的HDP服务器转移到具有类似设置的CDH5服务器。由于Livy不是Cloudera的组件,我使用的是他们网站上的0.5.0-incubating版本,在与YARN、Spark和HDFSmasters相同的服务器之一上运行它。长话短说,当我尝试提交给Livy时,我收到以下错误消息:Diagnostics:Filefile:/home/livy/livy-0.5.0-incubating-bin/rsc-jars/livy-rsc-0.5.0-incubating.jardoesnotexist

hadoop - StreamSet 能否用于将数据提取到本地系统?

我们的团队正在探索HDFS到本地数据提取的选项。我们被建议使用StreamSet,但团队中没有人对此有任何想法。谁能帮助我了解这是否符合我们将数据从HDFS提取到本地系统的要求?只是一个额外的问题。我在本地设置了StreamSets。例如在本地ip:xxx.xx.x.xx:18630并且它在一台机器上工作正常。但是当我试图从网络上的其他机器访问这个URL时,它不起作用。而我的其他应用程序(如Shiny-server等)使用相同的机制运行良好。 最佳答案 是的-您可以使用StreamSets数据收集器的HadoopFSStandalo

hadoop - 无法从远程主机访问 Hue UI

我正在尝试将Hue用作HDFS的文件浏览器。为此,我克隆了hue存储库并使用README.md中给出的以下命令构建应用程序色调存储库。gitclonehttps://github.com/cloudera/hue.gitcdhuemakeappsbuild/env/bin/huerunserverHueUI可在本地机器上使用默认端口访问,使用urlhttp://localhost:8000一切正常。但是当我使用我的机器ip地址时http://x.x.x.x:8000并尝试访问它一直在处理和等待的HueUI。其他观察-:我可以从远程机器ping主机。没有防火墙阻止端口。(使用nmap端口

hadoop - cdh3 客户端可与 apache hadoop 服务器 0.20.xx 互操作?

我们有一个基于hadoop-core-0.20.2-cdh3u1.jar的java客户端。针对运行apache分布式0.20.xx的服务器(集群)工作是否安全?还是cloudera破坏了一些apacheAPI?谢谢 最佳答案 可能是个坏主意。尝试与使用hadoop-core版本0.20.203.0的客户端一起使用cdh3u1的服务器并得到:org.apache.hadoop.ipc.RPC$VersionMismatch:Protocolorg.apache.hadoop.hdfs.protocol.ClientProtocolve

hadoop守护进程没有启动

我已经在linux集群中安装了Hadoop。当我尝试通过命令启动服务器时$bin/start-all.sh,我收到以下错误:mkdir:cannotcreatedirectory`/var/log/hadoop/spuri2':Permissiondeniedchown:cannotaccess`/var/log/hadoop/spuri2':Nosuchfileordirectory/home/spuri2/spring_2012/Hadoop/hadoop/hadoop-1.0.2/bin/hadoop-daemon.sh:line136:/var/run/hadoop/hadoo

hadoop - Apache Pig 不会将字符串解析为 int/long

我是pig的新手,正在尝试对包含如下所示事件的文件执行一些基本分析:13454777652012-08-2008:49:24servername12.34.56.78192.168.1.4joebloggsManageSystemHere'syourmessage我尝试按如下方式加载文件:logs=LOAD'/path/to/file'usingPigStorageAS(loggedtime:long,serverdate:chararray,servertime:chararray,servername:chararray,externalip:chararray,internali