数据分析之滑动窗口

时间窗口分析

  1. 概念

很多数据,例如日志,都是和时间相关的,都是按照时间顺序产生的。产生的数据分析的时候,要按照时间求值

interval 表示每一次求值的时间间隔

width 时间窗口的宽度,值的一次求值的时间窗口宽度

  1. 当width > interval

有重复数据

  1. 当width < interval

一般不采纳这种方案,会有数据丢失

  1. 当width = interval

数据分析基本程序分析

消息队列

# python 自带的消息队列
import queue
# 支持下面的队列模式
# FIFO 先进先出
# LIFO 先进后出
# 创建一个FIFO的队列
# maxsize 为0 表示不限制长度
mq = queue.Queue(maxsize=100)
# 推入数据
# block是否阻塞
# timeout 超时时长,设置了阻塞才会有效,超时后会抛出Full异常
mq.put('数据', block=True, timeout=10)
mq.put_nowait('数据')

# 获取数据
mq.get(block=True, timeout=10)
# 获取数据不等待
mq.get_nowait()

一些分析数据的工具

pip install user-agents

使用方法

from user_agents import parse
# 解析字符串中的User-Agent
string = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36'

agent = parse(string)    # 解析完成后是一个UserAgent对象
print(agent.browser.family)    # 获取浏览器家族
print(agent.browser.version_string)    # 获取版本
最后修改:2021 年 06 月 04 日 08 : 20 PM
如果觉得我的文章对你有用,请随意赞赏