草庐IT

mysql - MySQL 是否可以根据时间序列计算平均时间?

coder 2023-10-12 原文

假设您有一个通用分析工具可以跟踪页面浏览量,并且您想要获取每个用户的第一个事件和最后一个事件之间的总时间。是否可以使用窗口函数?

这是示例数据:

CREATE TABLE `user_events` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `user` varchar(45) DEFAULT NULL,
  `page` varchar(45) DEFAULT NULL,
  `ts` timestamp NULL DEFAULT NULL,
  PRIMARY KEY (`id`)
);
INSERT INTO `user_events` VALUES 
  (1,'user1','home','2019-03-03 10:00:00'),
  (2,'user2','home','2019-03-03 10:00:11'),
  (3,'user1','about','2019-03-03 10:00:23'),
  (4,'user1','contact','2019-03-03 10:00:47'),
  (5,'user2','services','2019-03-03 10:01:04'),
  (6,'user2','contact','2019-03-03 10:01:15'),
  (7,'user1','home','2019-03-03 18:20:34'),
  (8,'user1','services','2019-03-03 18:20:37');

这让我们开始:

mysql> select * from user_events;
+----+-------+----------+---------------------+
| id | user  | page     | ts                  |
+----+-------+----------+---------------------+
|  1 | user1 | home     | 2019-03-03 10:00:00 |
|  2 | user2 | home     | 2019-03-03 10:00:11 |
|  3 | user1 | about    | 2019-03-03 10:00:23 |
|  4 | user1 | contact  | 2019-03-03 10:00:47 |
|  5 | user2 | services | 2019-03-03 10:01:04 |
|  6 | user2 | contact  | 2019-03-03 10:01:15 |
|  7 | user1 | home     | 2019-03-03 18:20:34 |
|  8 | user1 | services | 2019-03-03 18:20:37 |
+----+-------+----------+---------------------+

完成这一切后我们的预期结果如下:

  • 用户 1 = 47 秒
  • 用户 2 = 64 秒
  • user1 session2 = 3 秒

这会给我们平均 38 秒

这个博客似乎以 Postgres 为例 https://blog.jooq.org/2015/05/12/use-this-neat-window-function-trick-to-calculate-time-differences-in-a-time-series/博客的最后一部分提到使用“重置”来重新启动计时器,但是我在将 Postgres 转换为 MySQL 时遇到了困难

我从 https://modern-sql.com/feature/filter 中选择了 FILTER 的替代方法

mysql> SELECT
    ->   COUNT(CASE WHEN page = 'home' THEN 1 END)  OVER (ORDER BY ts) c,
    ->   ts
    -> FROM user_events;
+---+---------------------+
| c | ts                  |
+---+---------------------+
| 1 | 2019-03-03 10:00:00 |
| 2 | 2019-03-03 10:00:11 |
| 2 | 2019-03-03 10:00:23 |
| 2 | 2019-03-03 10:00:47 |
| 2 | 2019-03-03 10:01:04 |
| 2 | 2019-03-03 10:01:15 |
| 3 | 2019-03-03 18:20:34 |
| 3 | 2019-03-03 18:20:37 |
+---+---------------------+

但我显然需要某种分组,这样第二次用户主页访问不会重置第一次。

我也试过一个简单的最小值/最大值

mysql> select TIMEDIFF(max(ts),min(ts)) as session_length, user
    -> from user_events
    -> group by user;
+----------------+-------+
| session_length | user  |
+----------------+-------+
| 08:20:37       | user1 |
| 00:01:04       | user2 |
+----------------+-------+

但我再次需要重置,这样用户 1 的 2 个 session 就不会分组。

我尝试对给定数据进行的操作是否可行,或者我是否需要另一个“session_id”(或类似的)列来帮助查询

最佳答案

不幸的是,您已经猜对了,您的数据模型中需要一个 session_id 字段才能准确识别每个用户实际上是独一无二的。解决这个问题的唯一方法是设置一个默认计时器值,当超过该值时会认为用户已经创建了一个新 session ,但这非常麻烦,我不会以任何方式推荐它,因为它会带来其他问题并且计算会呈指数级增长更难处理。

用户 1 在您的示例中出现了两次,因此很难从数据模型中获得您想要的结果。如果没有您的结果,任何查看此内容的人都会说用户 1 在系统上花费了 8 小时 20 分 30 秒。

如果将 session_id 插入到 user_events 表中,就可以实现您想要的。 然后,您可以通过执行如下查询找到每个用户 session 花费的时间(以秒为单位)

    SELECT session_id, max(ts) as end_of_session, min(ts) as start_of_session, 
    (UNIX_TIMESTAMP(max(ts)) - UNIX_TIMESTAMP(min(ts))) as delta_ts
    FROM user_events
    GROUP BY session_id
    ORDER BY session_id

然后您可以将其包装在一个调用中,该调用通过如下查询计算出所有唯一用户 session 的平均持续时间

SELECT avg(delta_ts)
FROM
(    
    SELECT session_id, max(ts) as end_of_session, min(ts) as start_of_session, 
    (UNIX_TIMESTAMP(max(ts)) - UNIX_TIMESTAMP(min(ts))) as delta_ts
    FROM user_events
    GROUP BY session_id
    ORDER BY session_id
)q_inner

如果将 session_id 字段添加到您的模型,此示例将按您预期的方式工作。

CREATE TABLE `user_events` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `session_id` varchar(10) NOT NULL,
  `user` varchar(45) DEFAULT NULL,
  `page` varchar(45) DEFAULT NULL,
  `ts` timestamp NULL DEFAULT NULL,
  PRIMARY KEY (`id`)
);
INSERT INTO `user_events` VALUES 
  (1,'z1a64','user1','home','2019-03-03 10:00:00'),
  (2,'wopa1','user2','home','2019-03-03 10:00:11'),
  (3,'z1a64','user1','about','2019-03-03 10:00:23'),
  (4,'z1a64','user1','contact','2019-03-03 10:00:47'),
  (5,'wopa1','user2','services','2019-03-03 10:01:04'),
  (6,'wopa1','user2','contact','2019-03-03 10:01:15'),
  (7,'n3dhe','user1','home','2019-03-03 18:20:34'),
  (8,'n3dhe','user1','services','2019-03-03 18:20:37');


SELECT avg(delta_ts)
FROM
(    
    SELECT session_id, max(ts) as end_of_session, min(ts) as start_of_session, 
    (UNIX_TIMESTAMP(max(ts)) - UNIX_TIMESTAMP(min(ts))) as delta_ts
    FROM user_events
    GROUP BY session_id
    ORDER BY session_id
)q_inner

关于mysql - MySQL 是否可以根据时间序列计算平均时间?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54981583/

有关mysql - MySQL 是否可以根据时间序列计算平均时间?的更多相关文章

  1. ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法? - 2

    类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc

  2. ruby-on-rails - 如何验证 update_all 是否实际在 Rails 中更新 - 2

    给定这段代码defcreate@upgrades=User.update_all(["role=?","upgraded"],:id=>params[:upgrade])redirect_toadmin_upgrades_path,:notice=>"Successfullyupgradeduser."end我如何在该操作中实际验证它们是否已保存或未重定向到适当的页面和消息? 最佳答案 在Rails3中,update_all不返回任何有意义的信息,除了已更新的记录数(这可能取决于您的DBMS是否返回该信息)。http://ar.ru

  3. ruby - 使用 Vim Rails,您可以创建一个新的迁移文件并一次性打开它吗? - 2

    使用带有Rails插件的vim,您可以创建一个迁移文件,然后一次性打开该文件吗?textmate也可以这样吗? 最佳答案 你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件,这正是您想要的。我不能代表textmate。 关于ruby-使用VimRails,您可以创建一个新的迁移文件并一次性打开它吗?,我们在StackOverflow上找到一个类似的问题: https://sta

  4. ruby - 我可以使用 Ruby 从 CSV 中删除列吗? - 2

    查看Ruby的CSV库的文档,我非常确定这是可能且简单的。我只需要使用Ruby删除CSV文件的前三列,但我没有成功运行它。 最佳答案 csv_table=CSV.read(file_path_in,:headers=>true)csv_table.delete("header_name")csv_table.to_csv#=>ThenewCSVinstringformat检查CSV::Table文档:http://ruby-doc.org/stdlib-1.9.2/libdoc/csv/rdoc/CSV/Table.html

  5. ruby - 检查数组是否在增加 - 2

    这个问题在这里已经有了答案:Checktoseeifanarrayisalreadysorted?(8个答案)关闭9年前。我只是想知道是否有办法检查数组是否在增加?这是我的解决方案,但我正在寻找更漂亮的方法:n=-1@arr.flatten.each{|e|returnfalseife

  6. ruby - 我可以使用 aws-sdk-ruby 在 AWS S3 上使用事务性文件删除/上传吗? - 2

    我发现ActiveRecord::Base.transaction在复杂方法中非常有效。我想知道是否可以在如下事务中从AWSS3上传/删除文件:S3Object.transactiondo#writeintofiles#raiseanexceptionend引发异常后,每个操作都应在S3上回滚。S3Object这可能吗?? 最佳答案 虽然S3API具有批量删除功能,但它不支持事务,因为每个删除操作都可以独立于其他操作成功/失败。该API不提供任何批量上传功能(通过PUT或POST),因此每个上传操作都是通过一个独立的API调用完成的

  7. ruby - 检查字符串是否包含散列中的任何键并返回它包含的键的值 - 2

    我有一个包含多个键的散列和一个字符串,该字符串不包含散列中的任何键或包含一个键。h={"k1"=>"v1","k2"=>"v2","k3"=>"v3"}s="thisisanexamplestringthatmightoccurwithakeysomewhereinthestringk1(withspecialcharacterslike(^&*$#@!^&&*))"检查s是否包含h中的任何键的最佳方法是什么,如果包含,则返回它包含的键的值?例如,对于上面的h和s的例子,输出应该是v1。编辑:只有字符串是用户定义的。哈希将始终相同。 最佳答案

  8. ruby-on-rails - Ruby 检查日期时间是否为 iso8601 并保存 - 2

    我需要检查DateTime是否采用有效的ISO8601格式。喜欢:#iso8601?我检查了ruby​​是否有特定方法,但没有找到。目前我正在使用date.iso8601==date来检查这个。有什么好的方法吗?编辑解释我的环境,并改变问题的范围。因此,我的项目将使用jsapiFullCalendar,这就是我需要iso8601字符串格式的原因。我想知道更好或正确的方法是什么,以正确的格式将日期保存在数据库中,或者让ActiveRecord完成它们的工作并在我需要时间信息时对其进行操作。 最佳答案 我不太明白你的问题。我假设您想检查

  9. ruby - 检查日期是否在过去 7 天内 - 2

    我的日期格式如下:"%d-%m-%Y"(例如,今天的日期为07-09-2015),我想看看是不是在过去的七天内。谁能推荐一种方法? 最佳答案 你可以这样做:require"date"Date.today-7 关于ruby-检查日期是否在过去7天内,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/32438063/

  10. ruby - 如何验证 IO.copy_stream 是否成功 - 2

    这里有一个很好的答案解释了如何在Ruby中下载文件而不将其加载到内存中:https://stackoverflow.com/a/29743394/4852737require'open-uri'download=open('http://example.com/image.png')IO.copy_stream(download,'~/image.png')我如何验证下载文件的IO.copy_stream调用是否真的成功——这意味着下载的文件与我打算下载的文件完全相同,而不是下载一半的损坏文件?documentation说IO.copy_stream返回它复制的字节数,但是当我还没有下

随机推荐