草庐IT

Hadoop-Solr

全部标签

hadoop - 替换配置单元中的 NULL

我在配置单元中有一个表,其中包含以“null”作为数据的列。我想用“N/A”替换“null”尝试使用COALESCE(col_name,'N/A')但它不起作用我用了if并且有效if(col_name='null','N/A',col_name)我在列中有百万个值,这个“如果”会影响性能吗?如果是,处理这种情况的最佳方法是什么?请建议 最佳答案 使用IF条件不会影响您的性能。无论您选择什么条件函数(CASE、NVL、IF等),它都需要遍历所有记录以检查该条件。继续使用IF条件 关于had

hadoop - HIVE:UDF 错误失败:找不到类 <ClassName>

我正在尝试使用myjar.jar作为HIVE中的UDF函数,如下所示,echo"Addmyjar.jar"$HIVE_HOME/bin/hive-e"ADDJAR/gpfs/user/username/HIVE/myjar.jar;"echo"Listmyjar.jar,thisisshowinglocaldirectorypath"$HIVE_HOME/bin/hive-e"listjar;"$HIVE_HOME/bin/hive-e"dropfunctionifexistsmyfunction;"echo"Createtemporaryfunction,myclassnameisU

Hadoop HA 设置 : not able to connect to zookeeper

我正在按照以下文章尝试设置HadoopHA。http://hashprompt.blogspot.in/2015/01/fully-distributed-hadoop-cluster.html配置完成后,当我尝试运行时hdfszkfc-formatZK我收到以下错误。15/03/3012:18:14INFOzookeeper.ZooKeeper:Clientenvironment:java.library.path=/opt/hadoop-2.6.0/lib/native15/03/3012:18:14INFOzookeeper.ZooKeeper:Clientenvironment

hadoop - 创建 BigInsights (IBM Hadoop) Docker 镜像,sysctl 问题

我正在尝试使用IBMBigInsightsQuickStartEdition创建一个docker镜像,以使用本地软件安装程序在DOCKER容器云(例如IBMBluemix)上运行,可以在此处找到:http://www-01.ibm.com/software/data/infosphere/biginsights/quick-start/downloads.html问题是在安装过程中我收到一些错误,使用sysctl访问的一些内核参数设置不正确。如果我使用Dockerfile调整它们,我会收到一条错误消息:只读文件系统现在我想知道是否有可能创建一个BigInsights镜像,因为必须在主机

java - Hadoop 自定义 Mapper 输出格式到 Reducer

HDFS的新手:如果我错了,请纠正我,但据我所知:Mapper最后两个Text是映射器的返回类型。假设我想返回Text,.我怎么能做到这一点?另外,我应该在文档中的哪个位置查看?例如,映射器接收到对象和文本后,它对输入文件中的数据行执行一些逻辑,我希望它返回类似的内容context.write(Text,[Text,IntWriteable]) 最佳答案 你必须在hadoop中实现自定义可写。我指的是一些网站,可能会有帮助https://halalhassan.wordpress.com/2013/12/15/custom-writ

apache - 有一个不可序列化的结果 : org. apache.hadoop.hbase.client.Result

privatestaticJavaPairRDDgetCompanyDataRDD(JavaSparkContextsc)throwsIOException{returnsc.newAPIHadoopRDD(companyDAO.getCompnayDataConfiguration(),TableInputFormat.class,ImmutableBytesWritable.class,Result.class).mapToPair(newPairFunction,Integer,Result>(){publicTuple2call(Tuple2t)throwsException{

Hadoop 安装 + 启用虚拟化 64 位 CPU

我有Windows7的HPPaviliondv6笔记本,但它不支持虚拟化(如图所示,BIOS上没有任何选项)。使用此配置,我无法安装ClouderaQuickStartVMs.由于这个问题,现在我需要澄清以下几点,1)安装Hadoop时,是否需要支持虚拟化的CPU?-如果是,是否有任何选项可以在没有虚拟化支持的情况下安装在较旧的CPU上?2)安装Hadoop,CPU是否应该是64位?-如果是,是否有在32位CPU上安装的选项谢谢。 最佳答案 (1)Hadoop是(大部分)用Java编写的,不需要CPU虚拟化支持即可运行。Java适用

Hadoop ls 命令不起作用

我能够在HDFS中创建目录,但是当我提交“ls”命令时,它给出了下面提到的错误。当我给bin/hadoopdfs–ls/时,我得到了同样的错误。我错过了什么?hduser@Server-8-22:/usr/local/hadoop$bin/hadoopfs-mkdirskalburginputWarning:$HADOOP_HOMEisdeprecated.hduser@Server-8-22:/usr/local/hadoop$bin/hadoopfs-mkdirskalburgoutputWarning:$HADOOP_HOMEisdeprecated.hduser@Server-

hadoop - 将参数 "args"从主类传递给 Map 类

示例:jar类arg1arg2arg3arg1用于输入格式,arg2用于输出格式,如下所示:publicstaticvoidmain(String[]args){FileInputFormat.addInputPath(conf,newPath(args[0]));FileOutputFormat.setOutputPath(conf,newPath(args[1]));....}我需要发送arg3"args[2]"到map类......publicclassJoinMultiMapextendsMapReduceBaseimplementsMapper{ineedarg3her}

hadoop - Cloudera Director Server AWS 快速入门

我正在关注ClouderaAWS快速入门https://s3.amazonaws.com/quickstart-reference/cloudera/hadoop/latest/doc/Cloudera_EDH_on_AWS.pdf我正在使用选项2使用ClouderaDirectorServer。我按照指示使用./bin/cloudera-director-server启动服务器,然后系统提示我“监听端口7189上的连接”。由于没有提示,我不确定如何运行下一步。./bin/cloudera-directorbootstrap-remoteaws.simple.conf--ip.remo