python教程技术文章-Golang学习网

文章 · python教程 | 2个月前 | 多进程多线程

Python实现多进程编程的核心模块是multiprocessing，它支持创建和管理独立进程以实现并行计算。1.multiprocessing模块允许创建进程池、管理进程间通信，并支持多种并发任务实现方式；2.多进程相比多线程的优势在于每个进程拥有独立内存空间，避免GIL限制，适合CPU密集型任务且提升程序稳定性；3.常用方法包括Process类用于创建单独进程，Pool用于任务并行处理，Queue和Pipe用于进程间数据传递，Manager用于共享对象管理；4.避免死锁的方法包括避免循环等待、使用锁的

250 收藏

文章 · python教程 | 2个月前 |

原子组防止回溯，提升正则效率

原子组的实际作用是避免不必要的回溯，提升正则表达式的匹配效率和稳定性。1.它通过语法格式(?>匹配内容)实现，告诉正则引擎一旦匹配完该部分内容就不再回头尝试其他组合；2.常用于解决嵌套量词导致的性能问题，如将(a+)+改为(?>a+)+可防止指数级回溯；3.适用于固定格式的前缀匹配，比如日志解析中防止引擎在固定部分反复试探；4.使用时需要注意，并非所有语言都支持原子组，例如Python标准库re不支持，而regex模块支持；5.不当使用可能改变匹配结果或影响性能，因此需结合具体逻辑判断是否需要

250 收藏

文章 · python教程 | 2个月前 |

Python自动化测试怎么用？pytest框架详解

pytest是Python中高效实现自动化测试的框架，适合各种规模项目和入门者。其语法比unittest更简洁，扩展性强，社区支持好。安装通过pipinstallpytest完成，并创建以test_开头的测试文件，如test_example.py写测试函数。运行时使用pytest命令执行测试。组织测试用例时，按功能模块划分目录结构，并可用@pytest.mark打标签筛选执行。Fixture用于管理测试资源，可定义登录等前置操作，并在测试函数中复用，提升代码整洁性和可维护性。结合插件如pytest-htm

250 收藏

文章 · python教程 | 2个月前 |

Python数据离散化：cut与qcut对比详解

cut和qcut的核心区别在于分箱依据不同。一、cut按自定义区间分箱，适用于已知数据分布范围或需手动控制边界的情况，可设置标签但需注意边界包含情况及极值处理；二、qcut按分位数分箱，使各区间样本量均衡，适合数据分布不均时使用，但边界不易预测且可能因重复值导致异常；三、二者区别体现在分箱依据、区间长度、样本分布和适用场景：cut控制灵活但样本分布可能不均，qcut样本均衡但边界不可控；四、选择cut的情况包括需明确边界、有业务背景支持、需统一标签，选qcut则用于分布不均、建模前特征工程、关注分布均衡而

250 收藏

文章 · python教程 | 2个月前 |

Pandas合并Excel文件并自动添加文件名列

本教程详细介绍了如何使用Python的Pandas库高效合并多个Excel文件。文章将指导读者通过遍历文件、读取数据，并在合并过程中为每条记录自动添加一个包含其来源文件名的列。这对于数据溯源和管理批量导入的数据至关重要，帮助用户轻松整合分散的数据并保持其来源信息。

250 收藏

文章 · python教程 | 1个月前 | mysql Python 数据库事务 pymysql

Python连接MySQL数据库入门教程

Python操作MySQL数据库的核心在于使用PyMySQL等库实现连接与SQL操作。1.安装PyMySQL并配置连接参数；2.使用cursor执行SQL语句，实现增删改查；3.通过conn.commit()提交事务或conn.rollback()回滚；4.使用参数化查询防止SQL注入；5.利用with语句或finally块确保资源释放；6.统一使用utf8mb4编码避免乱码问题；7.处理连接失败时需检查MySQL服务状态、网络、账号密码等配置。整个过程需注重安全性、效率与事务一致性。

250 收藏

文章 · python教程 | 1个月前 | Python 因果推理异常根因分析因果图 DoWhy

Python实现因果推理异常根因分析

基于因果推理的异常根因分析通过构建因果图并量化因果效应，实现精准定位根本原因。其核心步骤包括：1.数据准备与特征工程，收集系统指标并提取特征；2.因果图构建，结合专家知识与数据驱动算法（如PC、GES）推断变量间因果关系；3.因果效应量化，使用DoWhy和EconML等库估计变量对异常的影响；4.根因识别，通过因果效应与时间序列分析确定真正诱因。相比传统关联分析，因果推理能有效识别共同原因、方向性及伪相关问题，从而避免误判，实现系统异常的科学诊断与精准修复。

250 收藏

文章 · python教程 | 1个月前 |

Scrapy抓取tbody为空怎么解决

本文旨在解决使用Scrapy爬虫抓取网页数据时，XPath表达式定位tbody元素返回空数组的问题。通过分析原因，并提供绕过tbody元素直接定位tr元素的解决方案，帮助开发者更有效地抓取目标数据。

250 收藏

文章 · python教程 | 1个月前 | Python 实时数据异常检测 plotly 可视化面板

Python异常检测可视化：Plotly实战教程

1.选择异常检测算法需考虑数据特性、维度、数据量及解释性需求。2.时间序列适合统计方法，复杂数据适合机器学习模型。3.高维数据优选IsolationForest。4.无监督方法更常用，但有标签数据时可用监督学习。5.解释性强的模型适合需人工介入的场景。6.Plotly中使用颜色、形状、大小区分异常类型与严重程度。7.利用悬停信息展示详细数据。8.通过子图展示数据与异常分数变化。9.加入交互组件如时间选择器、特征切换菜单。10.实时检测需解决数据流处理、模型推理速度、面板刷新机制。11.大规模数据可引入Ka

250 收藏

文章 · python教程 | 1个月前 | Python 数据库连接连接池连接管理连接泄露

Python检测未关闭数据库连接的方法

要解决Python中未关闭的数据库连接问题，主要依靠良好的连接管理和异常处理机制。1.使用try...finally块确保无论是否发生异常，连接都会被关闭；2.利用上下文管理器（with语句）自动管理连接生命周期；3.通过连接池监控空闲连接并定期清理；4.借助数据库服务器自带工具监控连接状态；5.使用自定义装饰器封装连接管理逻辑。对于长时间运行的脚本，应定期重置连接、设置合理超时、并启用监控告警机制。在多线程或多进程环境下，每个线程或进程应独立创建和关闭连接，避免共享连接对象，并推荐使用连接池进行高效管理

250 收藏

文章 · python教程 | 1个月前 |

Python随机数据生成技巧全解析

使用Python进行数据模拟可通过不同工具实现，根据需求选择合适方法。1.基础随机数可用random模块，如生成随机整数、浮点数或从列表中选元素；2.复杂真实数据推荐Faker库，支持生成姓名、地址、邮箱等结构化信息，并可指定语言地区；3.时间序列与分布数据借助numpy和pandas，可创建正态或均匀分布数值及连续日期；4.自定义逻辑可通过封装函数结合上述方法，确保字段符合特定规则，如年龄限制或状态选项，从而批量生成结构一致的数据。

250 收藏

文章 · python教程 | 1个月前 | Python 编程语言 Python数据处理

Pandas复杂合并与递归合并技巧

常规的pd.merge不足以应对复杂层级关系的原因是其仅能执行一次性的两表连接，无法自动遍历多层结构。要处理这类问题，通常需采用迭代的pd.merge操作，具体步骤为：1.初始化基础数据集并重命名列以标识层级；2.在循环中不断将当前结果与原始关系表合并，逐层追溯父节点；3.每次合并后检查是否达到最大深度或所有路径已追溯到根节点，以决定是否终止循环；4.处理列名冲突、空值及数据类型问题，避免无限循环和数据膨胀；5.最终可进一步清理结果或转换为完整路径。此外，对于更大规模或复杂图结构的数据，应考虑使用Netw

250 收藏

文章 · python教程 | 1个月前 | 可视化 Scapy 网络拓扑扫描 ARP扫描 ICMPtraceroute

PythonScapy网络扫描教程详解

使用Scapy制作网络拓扑扫描的核心是结合ARP扫描和ICMPtraceroute技术，先通过ARP请求发现局域网内活跃设备，再利用TTL递增的ICMP包探测外部路径；2.Scapy的优势在于可自定义构造和解析任意协议层数据包，支持灵活探测、流量嗅探及多协议组合，适用于复杂网络环境；3.实际扫描中常见挑战包括防火墙拦截、权限不足、扫描效率低以及结果不完整，需采用多种扫描策略、控制速率并确保合法授权；4.构建可视化拓扑图需整合扫描数据为节点与边，利用NetworkX、Pyvis或Graphviz等工具生成交

250 收藏

文章 · python教程 | 1个月前 | Cython Python代码混淆源码保护 PyArmor Nuitka

Python代码混淆方法及源码保护方案

Python代码混淆通过重命名、字符串编码、控制流扁平化、常量混淆、移除注释等方式增加逆向难度，但并非绝对安全；2.混淆会带来性能开销，增加调试和维护成本，且不能等同于加密；3.有效保护策略包括将核心逻辑编译为C/C++扩展、采用SaaS/API模式部署、使用授权许可管理、容器化分发及法律手段；4.选择混淆方案需根据保护级别、性能影响、维护成本综合评估，常用工具如PyArmor（加密+绑定机器）、Nuitka（编译为可执行文件）、Cython（编译为C扩展）；5.最佳实践是组合使用多种策略，如核心模块用C

250 收藏

文章 · python教程 | 1个月前 |

Python接入Ceph存储教程

Python操作Ceph最常用的方式是使用rados库操作RADOS层或使用boto3对接RGW的S3兼容API；2.rados库用于底层存储池和对象操作，依赖Ceph客户端库并需配置ceph.conf和keyring；3.boto3通过endpoint_url对接CephRGW，适合构建云原生应用；4.连接Ceph集群需确保网络连通、安装依赖库、配置认证文件及Python环境；5.读写RADOS对象需创建Rados实例、打开IoCtx并调用write/read方法；6.使用boto3时建议结合resou

250 收藏