Note_Spark_Day

数模学习day01-层次分析法模型

已经一个多月没有更新过文章了，为了保住那绩点的意思微弱的优势，直接开摆，开始复习专业课和公共课考试了，结果虽然有遗憾但是还是算不错，至少没有掉到3.xx嘿嘿。然后现在就要开始学习数学建模和算法同步了。接下来的文章也会更新这两个方面的内容。好了进入正题吧。本文章根据B站UP：数学建模学习交流的正版视频编写第一讲：层次分析法这是建模比赛最基础的模型之一，其主要用于解决评价类问题（例如：选择哪种方案最好。哪位运动员或者员工的表现更优秀等）问题一：评价类问题可以使用打分解决最终通过整理得到如下的权重表格最终计算完成之后得到的得分是：华科：0.51

2023_Spark_实验三十：测试Flume到Kafka

实验目的：测试Flume采集数据发送到Kafka实验方法：通过centos7集群测试，将flume采集的数据放到kafka中实验步骤：一、 kafka可视化工具介绍KafkaTool是一个用于管理和使用ApacheKafka集群的GUI应用程序。KafkaTool提供了一个较为直观的UI可让用户快速查看Kafka集群中的对象以及存储在topic中的消息，提供了一些专门面向开发人员和管理员的功能，主要特性包括：-快速查看所有Kafka集群信息，包括其brokers,topicsandconsumers-查看分区中的消息内容并支持添加新消息-查看消费者偏移量，支持查看ApacheStormKafk

【elk-day01】es和kibana搭建及验证---Mac-Docker

Mac系统使用Docker下载搭建和验证es+kibanaDocker下载安装es安装es验证kibana安装kibana验证Docker下载安装DockerDesktop官网安装下载地址说明一下为什么要安装desktop版本的docker，因为docker作为工具使用，我们需要的是开箱即用，没有必要非得整那种dockerserver什么的手动进行安装，一大堆配置很麻烦，这个desktop很适合新手使用，查看管理镜像和容器非常方便下载完之后打开docker.dmg文件，将docker的图标拖动至application打开application中的docker程序，不知道怎么打开的，快捷键com

hive的引擎mapreduce、tez和spark对比

hive引擎简介Hive的执行引擎包括以下几种：HiveonMapReduceHive最早使用的执行引擎是基于HadoopMapReduce的。它将Hive查询转化为一系列的MapReduce任务进行并行执行。MapReduce引擎适用于处理大规模数据集，具有良好的容错性和扩展性，但由于磁盘读写和中间结果的持久化，可能在性能和响应时间方面受到影响。HiveonTezHive可以使用ApacheTez作为执行引擎来加速查询处理。Tez是一个用于高效执行大规模数据处理任务的执行框架，它源于MapReduce架构，核心思想是将Map和Reduce两个操作进一步拆分。它可以将查询的逻辑执行计划转化为一

Spark

HIVEVSSPARKspark是一个计算引擎，hive是一个存储框架。他们之间的关系就像发动机组与加油站之间的关系。类似于spark的计算引擎还有很多，像mapreduce，flink等等。类似于hive的存储框架也是数不胜数，比如pig。最底层的存储往往都是使用hdfs。如果将spark比喻成发动机，hive比喻为加油站，hdfs类似于石油。参考1在超大数据规模处理的场景下，Spark和Hive都有各自的优势。Spark由于其基于内存的计算模型，可以提供比Hive更高的处理速度。然而，Hive作为一种基于Hadoop的数据仓库工具，提供了类SQL的查询语言HQL，对于熟悉SQL的用户来说非

[AIGC] Apache Spark 简介

ApacheSpark是一个开源的大数据处理框架，它提供了高效的分布式数据处理和分析能力。Spark通过将数据加载到内存中进行计算，可以大幅提高数据处理速度。以下是ApacheSpark的几个基本概念：弹性分布式数据集（RDD）：RDD是Spark的核心抽象，它是一个被划分成多个分区的不可变的分布式对象集合。RDD可以并行处理，同时具有容错性和恢复能力。转换操作：Spark提供了一系列的转换操作，如map、filter、reduce等。这些操作可以对RDD进行转换，并生成新的RDD。行动操作：行动操作是对RDD进行实际计算的操作，如count、collect、reduce等。行动操作会触发Sp

区块链学习Day07（Pow案例实现中）

Pow案例实现上回顾看基于Web服务器的Pow案例先装安装依赖软件**gogetgithub.com/davecgh/go-spew/spew在控制台格式化输出结果gogetgithub.com/gorilla/mux编写Web程序的软件包gogetgithub.com/joho/godotenv用于读取GOPATH/src下的.env文件如果安装不了，看下面步骤：Go1.13及以上（推荐）打开你的终端并执行$goenv-wGO111MODULE=on$goenv-wGOPROXY=https://goproxy.cn,direct完成。macOS或Linux打开你的终端并执行$exportG

利用Spark构建房价分析与推荐系统：基于58同城数据的大数据实践

利用Spark构建房价分析与推荐系统：基于58同城数据的大数据实践基于Spark的房价数据分析预测推荐系统引言技术栈功能概述项目实现1.数据爬取与处理2.大数据分析与可视化3.房价预测模型4.协同过滤推荐系统5.Web应用开发6.数据管理与用户管理总结与展望基于Spark的房价数据分析预测推荐系统引言近年来，大数据技术在各个领域的应用愈发广泛，房地产领域也不例外。本文将介绍如何利用Pandas、Spark、Echarts和Flask等技术构建一个全面的房价数据分析、预测和推荐系统。数据集来自58同城的爬取，我们将通过数据爬取、处理、可视化以及机器学习等环节，打造一个功能完备的系统。技术栈Pan

Spark大数据分析与实战笔记（第二章 Spark基础-02）

文章目录每日一句正能量章节概要2.2搭建Spark开发环境2.2.1环境准备2.2.2Spark的部署方式2.2.3Spark集群安装部署一、Spark下载二、Spark安装三、环境变量配置2.2.4SparkHA集群部署一、集群部署二、运行测试三、多学一招每日一句正能量人生就像赛跑，不在乎你是否第一个到达尽头，而在乎你有没有跑完全程。章节概要Spark于2009年诞生于美国加州大学伯克利分校的AMP实验室，它是一个可应用于大规模数据处理的统一分析引擎。Spark不仅计算速度快，而且内置了丰富的API，使得我们能够更加容易编写程序。2.2搭建Spark开发环境请参考《Hadoop大数据技术与应

大数据编程实验四：Spark Streaming

一、目的与要求1、通过实验掌握SparkStreaming的基本编程方法；2、熟悉利用SparkStreaming处理来自不同数据源的数据。3、熟悉DStream的各种转换操作。4、熟悉把DStream的数据输出保存到文本文件或MySQL数据库中。二、实验内容1．参照教材示例，利用SparkStreaming对三种类型的基本数据源的数据进行处理。2．参照教材示例，完成kafka集群的配置，利用SparkStreaming对Kafka高级数据源的数据进行处理，注意topic为你的姓名全拼。3．参照教材示例，完成DStream的两种有状态转换操作。4．参照教材示例，完成把DStream的数据输出保