登录
首页 >  文章 >  python教程

Python用户留存分析:次日7日留存率代码

时间:2026-04-12 09:19:28 333浏览 收藏

本文深入解析了Python中用户留存分析的核心要点,特别强调次日与7日留存率的准确计算方法——关键在于严格区分“首次登录用户”而非所有登录用户,避免老用户重复登录导致的分母污染;通过pandas精准提取每位用户的首次登录日期、统一日期格式为date类型、用整数天差判断活跃周期,有效规避时间精度误差和逻辑偏差,为数据分析师提供可直接复用的稳健代码实践指南。

Python如何做留存分析_计算用户次日留存与7日留存率全量Pandas代码

pandas.DataFrame.groupby 按用户首次登录日期分组再统计留存

次日留存率不是“某天登录的人里第二天还来的比例”,而是“某天**首次**登录的用户中,第二天又活跃的比例”。漏掉“首次”这个限定,结果会严重高估——老用户反复登录会污染分母。

实操建议:

  • 先用 df.sort_values(['user_id', 'event_time']) 确保每个用户行为按时间排序
  • df.groupby('user_id')['event_time'].min() 提取每个用户的 first_login_date
  • first_login_date 合并回原表,作为后续分组依据
  • 别直接对原始登录日分组——那算的是“当日登录用户留存”,不是“新用户留存”

计算次日/7日是否活跃:用 pd.to_datetime 对齐日期再做差值比较

直接用字符串比日期、或没统一时区/格式就减时间戳,容易因精度丢失(比如 '2024-01-01 23:59:59''2024-01-02 00:00:01' 被判为跨2天)导致漏计。

实操建议:

  • event_timefirst_login_date 都转成 pd.to_datetime(...).dt.date(只留年月日)
  • (active_date - first_login_date).days 得整数天数,避免 Timedelta 单位混淆
  • 次日留存对应 days == 1,7日留存对应 days >= 1 and days (注意是“7日内至少活跃一次”,不是“第7天恰好活跃”)

聚合时别用 count() 直接除——要防分母为0和重复用户

一个新用户在次日多次打开 App,groupby().count() 会把这个人算多次,但留存只看“是否来过”,不是“来了几次”。更糟的是,如果某天没新用户,分母为0,div() 会产出 infNaN,后续画图或导出易崩。

实操建议:

  • 对每个 first_login_date 组,用 nunique('user_id') 算分母(新用户数)
  • 分子用 df[df['days']==1]['user_id'].nunique()(次日去重用户数)
  • 最后用 .fillna(0) 替换空组的 NaN,再用 .replace([np.inf, -np.inf], 0) 清理异常值

性能卡在大表上?避免 apply 和循环,改用 merge + agg

有人写 for date in dates: df[df['first']==date].apply(...),百万级用户下跑几小时。Pandas 的向量化操作根本不需要逐天遍历。

实操建议:

  • 把新用户表(含 user_id, first_login_date)和全量行为表(含 user_id, active_date)用 merge 连接
  • 加一列 days = (active_date - first_login_date).dt.days
  • groupby('first_login_date').agg({'user_id': ['nunique', lambda x: x[x.map(lambda u: (df[df.user_id==u].days>=1)&(df[df.user_id==u].days 是错的——别这么写;正确做法是先标记每条记录是否满足次日/7日条件,再聚合
  • 更稳的写法:df['is_d1'] = (df.days == 1); df['is_d7'] = (df.days.between(1, 7)); df.groupby('first_login_date').agg(d1_retain=('is_d1', 'mean'), d7_retain=('is_d7', 'mean'))

保留住“首次登录日”这个锚点,其他全是围绕它展开的布尔标记和分组聚合。最常被跳过的一步,就是没验证 first_login_date 是否真为每人最小时间——只要有一例时间错乱,整张留存表就不可信。

好了,本文到此结束,带大家了解了《Python用户留存分析:次日7日留存率代码》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多文章知识!

资料下载
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>