HADOOP_PREFIX

hadoop - OpenIMAJ 库中的 K-Means 聚类

我在机器学习和聚类分析方面不是很有经验，但我有以下问题:我有大约100kk-1000kk条数据，我无法一次将它们全部加载到内存中，我需要将其分成多个类(例如1-10k甚至100k类)以供进一步分析。为此，我选择了在OpenIMAJ库(FloatKMeans类)中实现的K-Means算法。我了解到K-Means算法可以分为2个阶段:学习阶段-我传递所有我必须创建/填充类(class)的数据分配阶段-在这里我可以询问集群给定数据属于哪个类我计划使用Hadoop减少阶段构建集群模型，我将一个接一个地接收数据片段(这就是为什么我不能一次将所有数据传递给算法的原因)我的问题是:OpenIMAJ实

hadoop - 如何在 pig latin 中的 foreach 中使用过滤器运算符

我试图在foreach中使用FILTER运算符来过滤我的一些数据，但它抛出了一个错误。我正在使用以下查询:ctm_pm_v1_stg=LOAD'/datalake/uhc/ei/pi_ara/hive/warehouse/ctm_pm.db/ctm_pm_t1'USINGPigStorage('\u0001')AS(lob:chararray,day_phnno:chararray,eve_phnno:chararray,mbr_name:chararray,hic_no:chararray,contract_no:chararray,ctm_risk_category:chararr

运算符何在 chararray ctm code hadoop foreach filter apache-pig

mysql - Hive-1.1.0 在将数据插入创建的表时显示错误(使用 hadoop-2.5.1)

我成功地创建了表:CREATETABLEmovie_example(titleSTRING,idBIGINT,directorSTRING,yearBIGINT,genresARRAY)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','COLLECTIONITEMSTERMINATEDBY'$'MAPKEYSTERMINATEDBY'#'LINESTERMINATEDBY'\n'STOREDASTEXTFILE;当我尝试使用以下方法向该表中插入数据时:LOADDATALOCALINPATH'//hiveExample.txt'OVERWRITEINTOTAB

时显 hadoop apache section mysql hive

hadoop - 替换配置单元中的 NULL

我在配置单元中有一个表，其中包含以“null”作为数据的列。我想用“N/A”替换“null”尝试使用COALESCE(col_name,'N/A')但它不起作用我用了if并且有效if(col_name='null','N/A',col_name)我在列中有百万个值，这个“如果”会影响性能吗？如果是，处理这种情况的最佳方法是什么？请建议最佳答案使用IF条件不会影响您的性能。无论您选择什么条件函数(CASE、NVL、IF等)，它都需要遍历所有记录以检查该条件。继续使用IF条件关于had

配置单 hadoop section col_name hive

hadoop - HIVE:UDF 错误失败:找不到类 <ClassName>

我正在尝试使用myjar.jar作为HIVE中的UDF函数，如下所示，echo"Addmyjar.jar"$HIVE_HOME/bin/hive-e"ADDJAR/gpfs/user/username/HIVE/myjar.jar;"echo"Listmyjar.jar,thisisshowinglocaldirectorypath"$HIVE_HOME/bin/hive-e"listjar;"$HIVE_HOME/bin/hive-e"dropfunctionifexistsmyfunction;"echo"Createtemporaryfunction,myclassnameisU

ClassName amp section HIVE_HOME HIVE hadoop jar user-defined-functions

Hadoop HA 设置 : not able to connect to zookeeper

我正在按照以下文章尝试设置HadoopHA。http://hashprompt.blogspot.in/2015/01/fully-distributed-hadoop-cluster.html配置完成后，当我尝试运行时hdfszkfc-formatZK我收到以下错误。15/03/3012:18:14INFOzookeeper.ZooKeeper:Clientenvironment:java.library.path=/opt/hadoop-2.6.0/lib/native15/03/3012:18:14INFOzookeeper.ZooKeeper:Clientenvironment

zookeeper connect hadoop apache java apache-zookeeper hadoop2

hadoop - 创建 BigInsights (IBM Hadoop) Docker 镜像，sysctl 问题

我正在尝试使用IBMBigInsightsQuickStartEdition创建一个docker镜像，以使用本地软件安装程序在DOCKER容器云(例如IBMBluemix)上运行，可以在此处找到:http://www-01.ibm.com/software/data/infosphere/biginsights/quick-start/downloads.html问题是在安装过程中我收到一些错误，使用sysctl访问的一些内核参数设置不正确。如果我使用Dockerfile调整它们，我会收到一条错误消息:只读文件系统现在我想知道是否有可能创建一个BigInsights镜像，因为必须在主机

BigInsights hadoop ssh install 39 docker ibm-cloud sysctl

java - Hadoop 自定义 Mapper 输出格式到 Reducer

HDFS的新手:如果我错了，请纠正我，但据我所知:Mapper最后两个Text是映射器的返回类型。假设我想返回Text,.我怎么能做到这一点？另外，我应该在文档中的哪个位置查看？例如，映射器接收到对象和文本后，它对输入文件中的数据行执行一些逻辑，我希望它返回类似的内容context.write(Text,[Text,IntWriteable]) 最佳答案你必须在hadoop中实现自定义可写。我指的是一些网站，可能会有帮助https://halalhassan.wordpress.com/2013/12/15/custom-writ

自定 Reducer section code Text java hadoop hdfs

apache - 有一个不可序列化的结果 : org. apache.hadoop.hbase.client.Result

privatestaticJavaPairRDDgetCompanyDataRDD(JavaSparkContextsc)throwsIOException{returnsc.newAPIHadoopRDD(companyDAO.getCompnayDataConfiguration(),TableInputFormat.class,ImmutableBytesWritable.class,Result.class).mapToPair(newPairFunction,Integer,Result>(){publicTuple2call(Tuple2t)throwsException{

apache Result section Integer hadoop

Hadoop 安装 + 启用虚拟化 64 位 CPU

我有Windows7的HPPaviliondv6笔记本，但它不支持虚拟化(如图所示，BIOS上没有任何选项)。使用此配置，我无法安装ClouderaQuickStartVMs.由于这个问题，现在我需要澄清以下几点，1)安装Hadoop时，是否需要支持虚拟化的CPU？-如果是，是否有任何选项可以在没有虚拟化支持的情况下安装在较旧的CPU上？2)安装Hadoop，CPU是否应该是64位？-如果是，是否有在32位CPU上安装的选项谢谢。最佳答案 (1)Hadoop是(大部分)用Java编写的，不需要CPU虚拟化支持即可运行。Java适用

虚拟化 Hadoop section strong 64-bit cpu virtualization bios

100 101 102103104 105 106