python教程技术文章
-
在Python中使用io.BytesIO与zipfile.ZipFile构建内存ZIP时,若在ZipFile上下文管理器结束前读取缓冲区,会导致ZIP结构不完整(缺少中央目录),从而产生损坏文件。关键在于必须等待ZipFile.__exit__完成写入后,再读取数据。424 收藏 -
SMOTE效果变差因盲目过采样放大噪声、生成错误区域样本,尤其在高维稀疏或类别重叠时;须仅在训练集操作、先降维或调k值、检查重复行。399 收藏 -
必须先用pd.to_datetime()转换日期列类型并用set_index()设为DatetimeIndex,再通过字符串切片或loc+pd.Timestamp按时间范围查询,且需确保索引已排序、时区一致。335 收藏 -
OpenCV可通过组合高斯模糊、双边滤波、肤色检测等实现轻量级实时美颜;分层修复老照片划痕与褪色;基于轮廓与凸包缺陷识别手势;利用单应性矩阵与透视变换实现实时AR贴纸与文字。243 收藏 -
Python多层爬虫调度系统核心是分层解耦、职责清晰、可扩可控,含任务管理、调度中心、执行代理、结果归集四层,通过Redis/Kafka等中间件轻量通信,强调稳准有度的策略设计与小闭环迭代演进。306 收藏 -
加User-Agent仍被403因网站校验多字段,需配套Accept、Accept-Language、Referer等,且headers应复用真实请求、用Session管理并避免过度模拟。439 收藏 -
3Sigma在业务数据中常失效,因业务数据多非正态分布,如订单时间集中早晚高峰、销售额长尾暴增、IoT读数存在系统性漂移;直接用numpy.std()计算标准差并应用于右偏订单金额,易误删大额客户;且3Sigma对离群点敏感,极端值会拉高标准差导致漏检;应先可视化分布形态,优先选用分位数法,或改用中位数与MAD等稳健估计。390 收藏 -
query()方法返回的是惰性求值的可迭代对象,即Query实例,非原生生成器或列表;遍历、list()、first()等操作才触发SQL执行,多次遍历会重复查询。410 收藏 -
pytest的pytest_runtest_makereport钩子通过判断report.when=="call"且notreport.passed来精准捕获失败用例,避免误捕setup/teardown异常;应使用report.longreprtext获取堆栈,弃用已废弃的report.outcome。187 收藏 -
shutil.move()会静默覆盖同名文件且不提示,跨文件系统移动可能残留副本,移动目录时目标不能为子目录,Windows下对占用文件操作失败,建议用os.path.exists()预检、Path.replace()替代单文件迁移。266 收藏 -
TDD的核心价值在于重构安全与设计清晰:改函数逻辑后通过测试快速验证行为不变;需拆分业务规则为独立测试、单断言、参数化覆盖;mock外部依赖避免环境耦合;低覆盖率暴露设计缺陷;CI自动化确认替代人工验证。268 收藏 -
Python缓存设计核心是选对策略、控好粒度、管住生命周期;需依场景选用@lru_cache、redis-py、diskcache等工具,规范键设计,合理设置失效策略,并实施击穿、雪崩、穿透防护。385 收藏 -
字符串切片生成新对象而非修改原字符串,因str不可变;负步长时start需大于end,越界不报错但易掩藏bug,关键截取前应校验长度。288 收藏 -
mmap是内存映射文件的方法,通过将文件映射到虚拟内存,使程序能像操作内存一样读写文件。使用时需以二进制模式打开文件,调用mmap.mmap()创建映射,支持随机访问和修改,适用于大文件处理如日志分析、数据库索引等,可提升效率并节省内存。注意映射大小不超过文件长度,操作后及时关闭对象以防资源泄露。217 收藏 -
del不返回值且键不存在时报错,pop返回被删值并支持默认值防错,popitem删除并返回最后插入的键值对。181 收藏