草庐IT

hadoop - 无法全局访问 Kafka Spark Streaming 中的数据

我正在尝试将数据从Kafka流式传输到SparkJavaPairInputDStreamdirectKafkaStream=KafkaUtils.createDirectStream(ssc,String.class,String.class,StringDecoder.class,StringDecoder.class,kafkaParams,topics);我在这里迭代JavaPairInputDStream来处理RDD。directKafkaStream.foreachRDD(rdd->{rdd.foreachPartition(items->{while(items.hasNe

java - 从 java 对象到 parquet 文件

我有一个json文件,想将其转换为parquet文件。我知道如何从json文件转换为java对象,但仍然需要从java对象转换为parquet文件。我不想使用AVRO/ProtocolBuffers/Thrift/等进行转换,也不想使用Apachedrill-只是一个java代码。我在Maven中使用Java项目,我的pom.xml如下所示:org.apache.parquetparquet-common1.8.1org.apache.parquetparquet-encoding1.8.1org.apache.parquetparquet-column1.8.1org.apache.

hadoop - 追加到现有序列文件

有人可以提供示例代码片段以说明如何将文件附加到现有序列文件中吗?下面是我用来附加到现有序列文件输出文件的代码,但是在附加后读取序列文件时它抛出校验和错误:打开校验和文件时出现问题:/Users/{homedirectory}/Desktop/Sample/SequenceFile/outputfile。忽略异常:java.io.EOFExceptionpublicclassAppendSequenceFile{/***@paramargs*@throwsIOException*@throwsIllegalAccessException*@throwsInstantiationExcep

sql - 配置单元查询 : Selecting column over a partition based on a median of a different column

我无法完成查询建模,因此需要帮助。我的数据是:idnameschoolheight1AS1102BS1123CS1144DS2155ES2166FS217我想选择每个学校的姓名和中位数高度的姓名。预期输出:idnameschoolmyval1AS1B2BS1B3CS1B4DS2E5ES2E6FS2E在这里,B的高度是S1学校的中位数,E是S2的中位数。我知道我们可以使用百分位数获得中位数。但我无法弄清楚如何选择每个分区的值。 最佳答案 下面的查询将起作用:-selecttemp1.id,temp1.name,temp1.school

hadoop - 必须具有 core-site hdfs-site mapred-site 和 yarn-site.xml 的属性

谁能告诉我Core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml必须具备的属性,没有这些属性hadoop就无法启动? 最佳答案 以下设置适用于Hadoop2.x.x的独立和伪节点设置。核心站点.xmlfs.default.namehdfs://localhost:9000hdfs-site.xmldfs.replication1dfs.name.dirfile:///home/hadoop/hadoopdata/hdfs/namenodedfs.data.dirfile:/

hadoop - Sqoop 命令的顺序重要吗?

我输入Sqoop命令的顺序有什么关系吗?sqoopimport--connectjdbc:mysql://localhost/nba--drivercom.mysql.jdbc.Driver--usernameroot--tableplayer--as-textfile--fields-terminated-by'\t'--target-dir/user/Inayath/sqooptest-m1例如,对于上面的代码,如果我将--as-textfile与--target-dir交换会有影响吗? 最佳答案 不,没关系。有时它可能会给出语

hadoop - 集群的映射器估计

需要对Hadoop集群中特定作业的映射器估计进行一些说明。根据我的理解,映射器的数量取决于用于处理的输入拆分。但如果我们要对已经驻留在HDFS中的输入数据进行处理,情况就是如此。在这里,我需要澄清有关由SQOOP作业触发的映射器和缩减器。多氟溴联苯..如何根据RAM或输入拆分/block估算专用集群的映射器计数?(一般)如何根据输入大小估算用于将数据从RDBMS检索到HDFS的sqoop作业的映射器计数?(基于Sqoop)什么是核心CPU,它如何影响可以并行运行的映射器的数量?(一般)谢谢。 最佳答案 如何基于RAM或基于输入拆分/

hadoop - 在 ambari 安装选项中,我应该添加 Ambari-Server IP/主机名吗?

我是ambari的新手,我关注了hortronworks关于如何安装ambari的教程。我的问题是在安装选项的步骤中,我应该设置服务器和代理的主机名还是只设置代理?(因为当我只设置代理时它通过否则失败!)提前谢谢你 最佳答案 您必须提供所有节点/主机的IP。如果它在您的服务器节点上不起作用,那么主要是因为您的sshauthorized_key该步骤未在该节点上完成。在您的服务器节点(在.ssh目录中)执行catid_rsa.pub>>authorized_keys。(请勿触摸任何其他sshkey)尝试从同一节点通过ssh连接到您的服

scala - 通过 Scala IDE 使用 spark sql

我想试试sparksql,我一开始用的是bin/spark-shell插入此代码valsqlcontext=neworg.apache.spark.sql.SQLContext(sc)valdata=sc.textFile("hdfs://localhost:9000/cars.csv")valmapr=data.map(p=>p.split(','))valMyMatchRDD=mapr.map(p=>MyMatch(p(0).toString(),p(1).toString(),p(2).toString(),p(3).toString(),p(4).toString(),p(5)

hadoop 2.7.3 HDFS Namenode -format No Such FIle or Directory 错误

我正在尝试使用this在Lubuntu机器上安装Hadoop2.7.3|教程。我正处于使用namenode-format命令格式化HDFS的时间点。每当我这样做时,我都会收到此错误:HadoopBot@hadoopmaster-MS-7756:~/Hadoop/hadoop/bin$/home/HadoopBot/Hadoop/hadoop/bin/hdfsnamenode-format/home/HadoopBot/Hadoop/hadoop/bin/hdfs:line304:/home/HadoopBot/Hadoop/hadoop/bin/$/usr/lib/jvm/java-8