-
系统未将Python加入PATH导致“不是内部或外部命令”,需手动添加Python安装目录(不含python.exe)到环境变量,并用新cmd验证;多版本共存时优先用py启动器管理。
-
roc_curve用于计算假正率、真正率和阈值,需输入正类预测概率而非硬分类结果;绘图时须设坐标轴范围为[0,1]、添加对角线参考线并标注AUC;多分类需One-vs-Rest手动处理;AUC高不等于实际效果好,需结合业务阈值评估。
-
Python多异常处理有五种方法:一、多个except分别捕获;二、except元组捕获多种异常;三、用基类捕获后isinstance判断;四、嵌套try-except分层处理;五、else和finally增强流程控制。
-
Python文件句柄泄漏主因是打开后未关闭,导致“Toomanyopenfiles”错误;常见于遗漏close()、异常中断执行流、多文件操作中清理失败及提前退出;推荐统一使用with语句确保自动关闭。
-
字典键不存在时,直接用dict[key]会抛出KeyError。安全访问推荐用.get()或.setdefault(),但二者用途和行为不同:前者只读不改字典,后者会写入默认值并返回它。get():安全读取,不改变原字典.get(key,default)在键存在时返回对应值;不存在时返回default(未提供则返回None),且不会修改字典内容。适合“查一下,有就用,没有就算了”的场景多次调用不会产生副作用例:d={'a':1};d.get('b',
-
正序遍历中用list.remove()会漏删元素,因删除后后续元素索引前移而循环索引仍递增,导致下一元素被跳过;安全做法包括切片副本遍历、逆序索引遍历或列表推导式重建。
-
np.eye生成OneHot矩阵要求标签为从0开始的连续整数,否则需先标准化索引;字符串或非连续整数标签须用np.unique(...,return_inverse=True)转换;注意dtype、shape及内存效率问题。
-
事件循环是单线程协程调度器,依赖await主动让出控制权,不处理CPU密集任务,推荐用asyncio.run()启动。
-
运行python-c"importsys;print(sys.executable)"可准确获取当前Python解释器的完整路径,这是定位Python安装位置最直接可靠的方法;配合where/python(Windows)或whichpython(macOS/Linux)及pyenvwhichpython(如使用pyenv)可全面确认环境。
-
Django异步视图需全链路异步支持,但WSGI模式下仍阻塞;耗时接口应拆分为“发任务+查状态”,优先用Celery而非直连RabbitMQ;前端采用长轮询,配合缓存与Nginx超时调优。
-
pdfplumber更适合结构化表格提取,因其原生保留文本坐标、线条和布局;PyPDF2仅输出纯文本,tabula依赖Java且对非标准线识别不稳。
-
Python列表无equals()方法,判断相等用==;pandasDataFrame才支持df.equals(),它处理NaN更合理且要求索引列对齐。
-
Flask默认Session不能跨进程共享,因其使用签名Cookie将加密数据存于客户端,服务端无状态;需用Flask-Session+Redis实现共享,关键配置包括SESSION_TYPE="redis"、SESSION_REDIS传Redis实例、显式设置SESSION_KEY_PREFIX等。
-
Python文本去重需先明确粒度:按行(最快,用dict.fromkeys保序)、按句子(需清洗后切分)、按语义(用TF-IDF或Sentence-BERT计算相似度);预处理须统一编码、清理不可见字符、过滤空行。
-
IP代理与用户代理池协同工作可有效应对反爬虫,通过模拟多样化真实用户行为,结合高质量代理管理、请求头一致性、无头浏览器及Cookie会话控制等策略,提升爬虫隐蔽性与稳定性。