-
drop_duplicates需用subset指定列去重,默认保留首次出现行;不赋值或inplace=True则原数据不变;NaN默认视为相同,多列去重前须统一数据类型与列名格式。
-
PyInstaller打包后报“failedtoexecutescript”主因是资源路径错误或依赖未收集:需用sys._MEIPASS定位文件、--add-data添加非Python资源、预装VC运行库解决DLL缺失,优先选--onedir和纯净虚拟环境减体积。
-
树莓派pip安装常卡在“Buildingwheel”阶段,因ARM架构编译资源有限、默认swap仅100MB,编译大库易OOM导致假死;需增大swap、换清华源(含apt主源、raspi.list和pip.conf)、优先用apt装预编译包(如sudoaptinstallpython3-opencv),或强制二进制安装。
-
Flask中可用Response包裹生成器实现长轮询:返回流式响应,设content_type为'text/plain'或'text/event-stream',禁用缓冲,yield消息加换行,配合RedisPub/Sub唤醒而非sleep,需配置Nginxproxy_bufferingoff及Gunicorn协程worker。
-
StandardScaler不能直接fit测试集,因会泄露测试信息导致评估失真;必须仅用训练集fit_transform,测试集仅transform,并持久化模型;对NaN报错,需前置处理缺失值;稀疏矩阵慎用with_mean=True;inverse_transform仅限原数据精确还原。
-
to_datetime报ParserError或ValueError的根本原因是默认智能推断对中文、混用分隔符、无前导零等不规范格式容忍度极低;应优先显式指定format参数,或对多格式混杂数据采用errors='coerce'分步清洗+正则归一化,辅以apply兜底。