python教程技术文章-Golang学习网

文章 · python教程 | 3星期前 |

正则表达式中的条件匹配允许根据条件选择不同匹配模式，其基本结构为(?(condition)true-pattern)或(?(condition)true-pattern|false-pattern)，常见应用场景包括匹配带引号或不带引号的内容，如解析HTML属性值时可使用(["'])?([^"']+)(?(1)\1|(?!\s))实现，此外还可使用命名组提升可读性，例如(?<quote>["'])?(\w+)(?(quote)\1|.)，但需注意该特性并非所有引擎均支持，常见支持的语言包括Pe

366 收藏

文章 · python教程 | 3星期前 |

Python操作Word文档全攻略

使用python-docx可实现Python操作Word文档，适合自动化报告生成和批量处理任务。1.创建新文档并添加内容：通过Document()新建文档，add_paragraph和add_heading添加段落和标题，最后用save保存；2.设置文字样式和格式：使用add_run控制段落中不同样式，设置bold、font.color.rgb（需导入RGBColor）和font.size（单位Pt）等属性；3.插入表格和图片：add_table创建表格并通过cell填充内容，设置style美化表格，ad

406 收藏

文章 · python教程 | 3星期前 |

Python并行计算技巧全解析

在Python中实现并行计算可以使用多线程、多进程、异步编程和并行计算库：1.多线程适合I/O密集型任务，但受GIL限制；2.多进程适合CPU密集型任务，避免GIL影响；3.异步编程适用于I/O密集型任务，提高响应性；4.并行计算库如Dask和Joblib提供高层次抽象，简化大规模数据处理。

113 收藏

文章 · python教程 | 3星期前 |

Python数据堆叠技巧：stack与unstack使用教程

在Python中，数据堆叠与解堆叠的核心工具是Pandas库的stack()和unstack()方法。1.stack()用于将列“堆叠”到行上，形成新的内层索引，适用于将宽格式数据转换为长格式；2.unstack()则相反，它将索引层级“解堆叠”到列上，常用于还原或转换长格式回宽格式。此外，stack()默认丢弃NaN值，但可通过dropna=False保留，而unstack()可用fill_value参数填充缺失值。3.其他相关工具包括melt()（快速融化多列为两列）、pivot_table()（带聚

326 收藏

文章 · python教程 | 3星期前 | 异常值数据清洗 Pandas 重复数据缺失值

Python数据清洗技巧：pandas高效使用教程

处理缺失值的常用策略有：1.使用dropna()删除缺失值，适用于缺失比例小或缺失行无价值的情况；2.使用fillna()填充，包括固定值填充、均值/中位数/众数填充、前后向填充（ffill/bfill）；3.使用interpolate()进行插值填充，适用于有趋势性的数据；4.利用模型预测缺失值，精度高但复杂度高；5.保留缺失值作为特征，因“缺失”本身可能蕴含信息。处理重复数据的方法是：1.用duplicated()识别重复行，可指定列和保留规则；2.用drop_duplicates()删除重复行，建议

221 收藏

文章 · python教程 | 3星期前 |

MongoDB批量导入JSON教程：mongoimport与脚本使用详解

本教程详细介绍了如何高效地将大量JSON文件导入MongoDB数据库。针对拥有数万个JSON文件路径的场景，文章提供了一种实用的解决方案：通过脚本生成针对每个文件的mongoimport命令，并将其汇总到一个批处理文件中执行。这种方法避免了手动操作的繁琐，确保了数据的批量、顺序导入，适用于需要将本地文件系统中的结构化数据快速载入MongoDB的场景，是处理大规模数据导入任务的有效策略。

207 收藏

文章 · python教程 | 3星期前 |

Python方差与标准差计算教程

在Python中计算数据离散度的核心方法是使用numpy和pandas库。1.numpy通过var()和std()函数计算方差和标准差，默认为总体方差（ddof=0），但样本分析常用ddof=1；2.pandas的Series和DataFrame对象自带var()和std()方法，默认即为样本方差/标准差；3.除方差和标准差外，还可使用极差（最大值减最小值）、IQR（四分位距）和MAD（平均绝对离差）等指标，适用于不同数据特性和分析需求；4.标准差因单位与原始数据一致，更适合直观解释波动性，而方差多用于统

380 收藏

文章 · python教程 | 3星期前 |

Python中int类型详解与用法示例

int是Python中的整数类型关键字，用于表示任意精度的整数。1.int类型没有上限，适合大数据和科学计算。2.整数操作直观，不需数据类型转换。3.Python3中的整数不可变，每次操作创建新对象。4.使用NumPy可提高大数运算性能。5.整数除法可用地板除（//）获取整数结果。

250 收藏

文章 · python教程 | 3星期前 |

Python网络分析：networkx图论实战指南

要使用Python分析社交网络需掌握四个核心步骤。1.利用NetworkX将数据转化为节点和边的图结构，可从CSV或API导入数据并创建图对象；2.通过度中心性、介数中心性和接近中心性识别关键人物，帮助定位活跃用户或信息传播枢纽；3.结合community模块采用Louvain方法检测社群结构，揭示用户群体行为；4.借助Matplotlib进行可视化展示，调整布局以清晰呈现网络拓扑。整个过程需要注意数据清洗、图类型选择及指标解释，多加练习可逐步掌握。

107 收藏

文章 · python教程 | 3星期前 |

Python多进程怎么用？multiprocessing详解

Python中绕过GIL实现真正并行计算的最直接方式是使用multiprocessing模块；2.该模块通过创建独立进程，每个进程拥有自己的解释器和内存空间，从而实现多核CPU并行计算；3.multiprocessing提供了Process类创建和管理进程、Queue/Pipe实现进程间通信、以及Pool用于高效管理大量任务；4.多进程适用于CPU密集型任务，而多线程受限于GIL更适合I/O密集型任务；5.进程间通信可通过队列（Queue）、管道（Pipe）和共享内存（SharedMemory）实现，各自

314 收藏

文章 · python教程 | 3星期前 |

Python嵌套JSON处理技巧：json_normalize实战教程

json_normalize处理多层嵌套JSON的关键在于record_path和meta参数的配合使用。1.record_path用于指定要展开的列表路径，可以是字符串或列表形式，如'orders'或['orders','items']，表示逐层展开；2.meta用于保留父级字段信息，可指定单层或多层路径，如['contact','email']；3.处理不规则结构时，可通过errors='ignore'忽略缺失键，用NaN填充；4.拍平后的DataFrame可结合Pandas进行数据类型转换、列重命名

467 收藏

文章 · python教程 | 3星期前 |

多CSV数据源管理指南与目录优化技巧

本教程详细介绍了如何高效地利用Intake库管理和组织多个CSV文件作为独立数据源。通过实例化intake.Catalog对象并逐一添加数据源，可以避免直接拼接YAML文件导致的格式错误，从而创建结构清晰、易于维护的数据目录，提升数据访问和共享的便利性。

298 收藏

文章 · python教程 | 3星期前 |

Python中log函数使用详解

在Python中，log函数用于进行对数计算。1）使用math.log()计算自然对数或任意底数的对数；2）使用numpy.log()和numpy.log2()等函数进行高效的对数计算，特别适合处理大规模数据和数组。

160 收藏

文章 · python教程 | 3星期前 | Scrapy 框架高并发自动化爬虫反爬策略

Python爬虫教程：Scrapy框架使用详解

Scrapy是当前最成熟、功能最强大的Python自动化爬虫框架，其核心优势在于提供从请求发起到数据存储的完整解决方案。1.Scrapy基于异步IO实现高并发，提升爬取效率；2.其模块化设计支持清晰架构与高度扩展性；3.中间件系统灵活应对反爬策略；4.内置Item与Pipeline实现数据结构化与存储；5.提供命令行工具及拥有活跃社区支持。通过Scrapy，开发者无需关注底层网络细节，可专注于业务逻辑开发，适用于高效稳定抓取大量数据的场景。

239 收藏

文章 · python教程 | 3星期前 |

PolarsID分组时间间隔快速计算方法

本文详细阐述了如何利用Polars库的窗口函数pl.Expr.over()，高效地计算Pandas或PolarsDataFrame中每个独立标识符（ID）内部连续事件之间的时间间隔。通过避免传统的map或apply操作，我们展示了如何利用Polars原生表达式API，结合diff()和dt.total_seconds()等函数，实现高性能的分组时间序列数据处理，最终生成新的时间间隔列。

460 收藏