
? 作者:韩信子@ShowMeAI
? 数据分析实战系列:https://www.showmeai.tech/tutorials/40
? AI 面试题库系列:https://www.showmeai.tech/tutorials/48
? 本文地址:https://www.showmeai.tech/article-detail/318
? 声明:版权所有,转载请联系平台与作者并注明出处
? 收藏ShowMeAI查看更多精彩内容

本篇内容基于场景面试题完成,在给定场景和数据表的前提下,有一系列的分析挖掘问题,大家可以基于SQL来完成。
场景:Danny非常喜欢日本料理,因此在 2021 年初,他决定冒险冒险,开了一家可爱的小餐厅,出售他最喜欢的 3 种食物:寿司、咖喱和拉面。这家餐厅从其几个月的运营中获取了一些非常基本的数据,但不知道如何使用他们的数据来帮助他们经营业务。
Danny 想基于收集到的数据来更深入地了解他的客户,例如他们的就餐模式、点餐花费以及他们最喜欢哪些菜等。下面你就来帮助他完成核心问题的分析吧,这里的分析基于SQL完成。
对于SQL更详尽的内容,欢迎大家查阅ShowMeAI制作的速查手册,快学快用:
本次的场景涉及到3个核心数据集,都已存入数据库表中:
salesmenumembers这3张表对应的实体关系图如下所示:

销售额表对应的建表与数据插入SQL语句如下:
CREATE TABLE sales (
"customer_id" VARCHAR(1),
"order_date" DATE,
"product_id" INTEGER
);
INSERT INTO sales
("customer_id", "order_date", "product_id")
VALUES
('A', '2021-01-01', '1'),
('A', '2021-01-01', '2'),
('A', '2021-01-07', '2'),
('A', '2021-01-10', '3'),
('A', '2021-01-11', '3'),
('A', '2021-01-11', '3'),
('B', '2021-01-01', '2'),
('B', '2021-01-02', '2'),
('B', '2021-01-04', '1'),
('B', '2021-01-11', '1'),
('B', '2021-01-16', '3'),
('B', '2021-02-01', '3'),
('C', '2021-01-01', '3'),
('C', '2021-01-01', '3'),
('C', '2021-01-07', '3');

菜单表对应的建表与数据插入SQL语句如下:
CREATE TABLE menu (
"product_id" INTEGER,
"product_name" VARCHAR(5),
"price" INTEGER
);
INSERT INTO menu
("product_id", "product_name", "price")
VALUES
('1', 'sushi', '10'),
('2', 'curry', '15'),
('3', 'ramen', '12');

会员表对应的建表与数据插入SQL语句如下:
CREATE TABLE members (
"customer_id" VARCHAR(1),
"join_date" DATE
);
INSERT INTO members
("customer_id", "join_date")
VALUES
('A', '2021-01-07'),
('B', '2021-01-09');

这里的信息显然来源于sales和menu两张表,我们先对它们进行关联,而问题中的『每位顾客』意味着我们会基于 customer_id 进行分组统计。最后的SQL如下所示:
SELECT customer_id,
Sum(price) AS total_sales
FROM sales
JOIN menu
ON sales.product_id = menu.product_id
GROUP BY sales.customer_id
查询结果如下:

我们知道,每位顾客每次光顾,都会生成 sales 中的相关记录,我们可以基customer_id统计客户访问餐厅的不同日期。
SELECT customer_id,
Count(DISTINCT( order_date )) as no_of_days_customer_visited
FROM sales
GROUP BY customer_id
查询结果如下:

这个问题同样会涉及到 sales 和 menu 表,我们会用到customer_id、product_name、order_date字段,按照要求,我们希望查询每个客户从菜单中购买的第 1 件商品,因此使用 rank 函数进行订单日期排序。对应的SQL如下所示:
WITH view_tab
AS (SELECT customer_id,
product_name,
order_date,
Rank()
OVER(
partition BY customer_id
ORDER BY order_date ) AS Ranking
FROM sales
JOIN menu
ON sales.product_id = menu.product_id)
SELECT customer_id,
product_name
FROM view_tab
WHERE ranking = 1
GROUP BY customer_id,
product_name
我们这里启用了临时表view_tab,选择 ranking 位1的数据对应的customer_id和product_name。
查询结果如下:

这里很显然是以『菜』为核心,因此我们会基于product_id进行分组,同时我们需要统计的是购买了多少次,因此需要根据count(product_id)的结果进行排序,对应的SQL如下所示:
SELECT product_name,
Count(sales.product_id) AS most_purchsed
FROM sales
JOIN menu
ON sales.product_id = menu.product_id
GROUP BY sales.product_id
ORDER BY most_purchsed DESC
LIMIT 1
查询结果如下:

第2小问是问所有顾客在这个最热门的菜上下单的次数,我们在上述SQL的基础上加上customer_id进行统计。
SELECT customer_id,
product_name,
Count(customer_id) AS purchase_count
FROM sales
JOIN menu
ON sales.product_id = menu.product_id
WHERE sales.product_id = 3
GROUP BY customer_id
ORDER BY purchase_count DESC
查询结果如下:

在这个问题中,我们要对客户购买每种产品的次数进行排名,因此使用窗口函数 rank,按customer_id划分,按客户购买产品的次数(计数)排序。对应的SQL如下:
WITH view_tab
AS (SELECT customer_id,
product_name,
Count(product_name) AS count_item,
Rank()
OVER(
partition BY customer_id
ORDER BY Count(product_name) DESC) AS most_popular
FROM sales
JOIN menu
ON sales.product_id = menu.product_id
GROUP BY customer_id,
product_name)
SELECT customer_id,
product_name,
count_item
FROM view_tab
WHERE most_popular = 1
查询结果如下:

这个问题中涉及到会员信息,我们会需要所有 3 个表,我们要把它们关联起来。我们要查询客户成为会员后购买的第一件商品,因此要选出订单日期需要大于加入日期的订单。使用窗口函数通过对customer_id进行划分并按order_date 对其进行排序,可以实现对第一个购买日期进行排序。这里依旧会需要借助临时表view_tab。最终的SQL如下:
WITH view_tab
AS (SELECT sales.customer_id,
product_name,
order_date,
Rank()
OVER(
partition BY sales.customer_id
ORDER BY order_date) AS first_order
FROM sales
JOIN menu
ON sales.product_id = menu.product_id
JOIN members
ON sales.customer_id = members.customer_id
WHERE join_date <= order_date)
SELECT customer_id,
product_name,
order_date
FROM view_tab
WHERE first_order = 1
查询结果如下:

同上一个问题,我们需要用到所有 3 个表。要查询客户在成为会员之前购买的商品,订单日期需要小于加入日期。使用窗口函数通过对customer_id进行划分并按order_date对其进行排序,对第一个购买日期进行降序排列。最终的SQL如下:
WITH rank
AS (SELECT S.customer_id,
M.product_name,
Dense_rank()
OVER (
partition BY S.customer_id
ORDER BY S.order_date) AS Rank
FROM sales S
JOIN menu M
ON m.product_id = s.product_id
JOIN members Mem
ON Mem.customer_id = S.customer_id
WHERE S.order_date < Mem.join_date)
SELECT customer_id,
product_name
FROM rank
WHERE rank = 1
查询结果如下:

要查询客户在成为会员之前购买的总商品和花费的金额,订单日期需要小于入会日期。将customer_id 的计数命名为total_items,将消费金额price的总和命名为total_sales,最终的SQL如下:
SELECT sales.customer_id,
Count(sales.product_id) AS total_items,
Sum(price) AS total_sales
FROM sales
JOIN menu
ON sales.product_id = menu.product_id
JOIN members
ON sales.customer_id = members.customer_id
WHERE join_date > order_date
GROUP BY sales.customer_id
ORDER BY sales.customer_id
查询结果如下:

这个问题用到sales和menu两张表。我们使用case语句将积分分配给客户购买的商品,并对积分进行统计求和得到每位顾客的积分数。对应的SQL如下:
WITH view_tab
AS (SELECT customer_id,
CASE
WHEN product_name = 'sushi' THEN price * 20
ELSE price * 10
END AS points
FROM sales
JOIN menu
ON sales.product_id = menu.product_id)
SELECT customer_id,
Sum(points) AS total_points
FROM view_tab
GROUP BY customer_id
查询结果如下:

WITH dates
AS (SELECT *,
Dateadd(day, 6, join_date) AS valid_date,
Eomonth('2021-01-31') AS last_date
FROM members)
SELECT S.customer_id,
Sum(CASE
WHEN m.product_id = 1 THEN m.price * 20
WHEN S.order_date BETWEEN D.join_date AND D.valid_date THEN
m.price * 20
ELSE m.price * 10
END) AS Points
FROM dates D
JOIN sales S
ON D.customer_id = S.customer_id
JOIN menu M
ON M.product_id = S.product_id
WHERE S.order_date < d.last_date
GROUP BY S.customer_id
查询结果如下:

SELECT s.customer_id,
s.order_date,
m.product_name,
m.price,
CASE
WHEN mb.join_date > s.order_date THEN 'N'
WHEN mb.join_date <= s.order_date THEN 'Y'
ELSE 'N'
END AS is_member
FROM sales s
LEFT JOIN menu m
ON s.product_id = m.product_id
LEFT JOIN members mb
ON mb.customer_id = s.customer_id
ORDER BY s.customer_id;
查询结果如下:

WITH joined_table
AS (SELECT s.customer_id,
s.order_date,
m.product_name,
m.price,
CASE
WHEN mb.join_date > s.order_date THEN 'N'
WHEN mb.join_date <= s.order_date THEN '‘Y'
ELSE 'N'
END AS is_member
FROM sales s
LEFT JOIN menu m
ON s.product_id = m.product_id
LEFT JOIN members mb
ON mb.customer_id = s.customer_id
ORDER BY s.customer_id)
SELECT *,
CASE
WHEN is_member = 'N' THEN NULL
ELSE Rank()
OVER(
partition BY customer_id, is_member
ORDER BY order_date)
END AS ranks
FROM joined_table;
查询结果如下:

我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD
本教程将在Unity3D中混合Optitrack与数据手套的数据流,在人体运动的基础上,添加双手手指部分的运动。双手手背的角度仍由Optitrack提供,数据手套提供双手手指的角度。 01 客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照:https://gitee.com/foheart_1/foheart-h1-data-summary.git02 数据转发打开MotiveBody软件的Streaming,开始向Unity3D广播数据;MotionVenus中设置->选项选择Unit
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目,Java开发。基于数据库增量日志解析,提供增量数据订阅&消费。Git地址:https://github.co
HashMap中为什么引入红黑树,而不是AVL树呢1.概述开始学习这个知识点之前我们需要知道,在JDK1.8以及之前,针对HashMap有什么不同。JDK1.7的时候,HashMap的底层实现是数组+链表JDK1.8的时候,HashMap的底层实现是数组+链表+红黑树我们要思考一个问题,为什么要从链表转为红黑树呢。首先先让我们了解下链表有什么不好???2.链表上述的截图其实就是链表的结构,我们来看下链表的增删改查的时间复杂度增:因为链表不是线性结构,所以每次添加的时候,只需要移动一个节点,所以可以理解为复杂度是N(1)删:算法时间复杂度跟增保持一致查:既然是非线性结构,所以查询某一个节点的时候
我正在尝试在Rails上安装ruby,到目前为止一切都已安装,但是当我尝试使用rakedb:create创建数据库时,我收到一个奇怪的错误:dyld:lazysymbolbindingfailed:Symbolnotfound:_mysql_get_client_infoReferencedfrom:/Library/Ruby/Gems/1.8/gems/mysql2-0.3.11/lib/mysql2/mysql2.bundleExpectedin:flatnamespacedyld:Symbolnotfound:_mysql_get_client_infoReferencedf
文章目录1.开发板选择*用到的资源2.串口通信(个人理解)3.代码分析(注释比较详细)1.主函数2.串口1配置3.串口2配置以及中断函数4.注意问题5.源码链接1.开发板选择我用的是STM32F103RCT6的板子,不过代码大概在F103系列的板子上都可以运行,我试过在野火103的霸道板上也可以,主要看一下串口对应的引脚一不一样就行了,不一样的就更改一下。*用到的资源keil5软件这里用到了两个串口资源,采集数据一个,串口通信一个,板子对应引脚如下:串口1,TX:PA9,RX:PA10串口2,TX:PA2,RX:PA32.串口通信(个人理解)我就从串口采集传感器数据这个过程说一下我自己的理解,
SPI接收数据左移一位问题目录SPI接收数据左移一位问题一、问题描述二、问题分析三、探究原理四、经验总结最近在工作在学习调试SPI的过程中遇到一个问题——接收数据整体向左移了一位(1bit)。SPI数据收发是数据交换,因此接收数据时从第二个字节开始才是有效数据,也就是数据整体向右移一个字节(1byte)。请教前辈之后也没有得到解决,通过在网上查阅前人经验终于解决问题,所以写一个避坑经验总结。实际背景:MCU与一款芯片使用spi通信,MCU作为主机,芯片作为从机。这款芯片采用的是它规定的六线SPI,多了两根线:RDY和INT,这样从机就可以主动请求主机给主机发送数据了。一、问题描述根据从机芯片手