首页 > 文章 > python教程

Python用户留存分析：次日7日留存率代码

时间：2026-04-12 09:19:28 333浏览收藏

本文深入解析了Python中用户留存分析的核心要点，特别强调次日与7日留存率的准确计算方法——关键在于严格区分“首次登录用户”而非所有登录用户，避免老用户重复登录导致的分母污染；通过pandas精准提取每位用户的首次登录日期、统一日期格式为date类型、用整数天差判断活跃周期，有效规避时间精度误差和逻辑偏差，为数据分析师提供可直接复用的稳健代码实践指南。

Python如何做留存分析_计算用户次日留存与7日留存率全量Pandas代码

用 `pandas.DataFrame.groupby` 按用户首次登录日期分组再统计留存

次日留存率不是“某天登录的人里第二天还来的比例”，而是“某天**首次**登录的用户中，第二天又活跃的比例”。漏掉“首次”这个限定，结果会严重高估——老用户反复登录会污染分母。

实操建议：

先用 df.sort_values(['user_id', 'event_time']) 确保每个用户行为按时间排序
用 df.groupby('user_id')['event_time'].min() 提取每个用户的 first_login_date
把 first_login_date 合并回原表，作为后续分组依据
别直接对原始登录日分组——那算的是“当日登录用户留存”，不是“新用户留存”

计算次日/7日是否活跃：用 `pd.to_datetime` 对齐日期再做差值比较

直接用字符串比日期、或没统一时区/格式就减时间戳，容易因精度丢失（比如 '2024-01-01 23:59:59' 和 '2024-01-02 00:00:01' 被判为跨2天）导致漏计。

实操建议：

把 event_time 和 first_login_date 都转成 pd.to_datetime(...).dt.date（只留年月日）
用 (active_date - first_login_date).days 得整数天数，避免 Timedelta 单位混淆
次日留存对应 days == 1，7日留存对应 days >= 1 and days （注意是“7日内至少活跃一次”，不是“第7天恰好活跃”）

聚合时别用 `count()` 直接除——要防分母为0和重复用户

一个新用户在次日多次打开 App，groupby().count() 会把这个人算多次，但留存只看“是否来过”，不是“来了几次”。更糟的是，如果某天没新用户，分母为0，div() 会产出 inf 或 NaN，后续画图或导出易崩。

实操建议：

对每个 first_login_date 组，用 nunique('user_id') 算分母（新用户数）
分子用 df[df['days']==1]['user_id'].nunique()（次日去重用户数）
最后用 .fillna(0) 替换空组的 NaN，再用 .replace([np.inf, -np.inf], 0) 清理异常值

性能卡在大表上？避免 `apply` 和循环，改用 `merge` + `agg`

有人写 for date in dates: df[df['first']==date].apply(...)，百万级用户下跑几小时。Pandas 的向量化操作根本不需要逐天遍历。

实操建议：

把新用户表（含 user_id, first_login_date）和全量行为表（含 user_id, active_date）用 merge 连接
加一列 days = (active_date - first_login_date).dt.days
用 groupby('first_login_date').agg({'user_id': ['nunique', lambda x: x[x.map(lambda u: (df[df.user_id==u].days>=1)&(df[df.user_id==u].days 是错的——别这么写；正确做法是先标记每条记录是否满足次日/7日条件，再聚合
更稳的写法：df['is_d1'] = (df.days == 1); df['is_d7'] = (df.days.between(1, 7)); df.groupby('first_login_date').agg(d1_retain=('is_d1', 'mean'), d7_retain=('is_d7', 'mean'))

保留住“首次登录日”这个锚点，其他全是围绕它展开的布尔标记和分组聚合。最常被跳过的一步，就是没验证 first_login_date 是否真为每人最小时间——只要有一例时间错乱，整张留存表就不可信。

好了，本文到此结束，带大家了解了《Python用户留存分析：次日7日留存率代码》，希望本文对你有所帮助！关注golang学习网公众号，给大家分享更多文章知识！

Python用户留存分析：次日7日留存率代码

用 pandas.DataFrame.groupby 按用户首次登录日期分组再统计留存

计算次日/7日是否活跃：用 pd.to_datetime 对齐日期再做差值比较

聚合时别用 count() 直接除——要防分母为0和重复用户

性能卡在大表上？避免 apply 和循环，改用 merge + agg

用 `pandas.DataFrame.groupby` 按用户首次登录日期分组再统计留存

计算次日/7日是否活跃：用 `pd.to_datetime` 对齐日期再做差值比较

聚合时别用 `count()` 直接除——要防分母为0和重复用户

性能卡在大表上？避免 `apply` 和循环，改用 `merge` + `agg`