数据处理
已收录文章:8篇
-
用 Python 标准库搭建 CSV 导入流水线,按原始文件、字段校验、SQLite 存储、查询路径、错误行处理和临时文件清理讲清数据生命周期。354 收藏
-
用一个可运行的小实验演示 Java Stream 如何把订单列表过滤、分组、金额求和并输出客户消费汇总,补充双维度统计和常见坑检查。355 收藏
-
本文用一套可复用的 Python 工作流处理 JSONL 大文件:先定边界,再逐行读取、字段检查、分批写出、保存失败样本,并用汇总报告确认结果。365 收藏
-
本文用 Python 解析访问日志的场景讲清正则命名分组:如何把原始日志拆成字段字典,如何处理格式不符合预期的错误行,最后统计接口访问次数、状态码分布和慢请求。308 收藏
-
本文用用户 CSV 导入场景,演示如何边读边校验、按批次写入、收集错误行并生成失败明细,避免一次性读入和半成功数据污染。204 收藏
-
查看源码 1 下载页面并处理 DOWNLOAD_URL = 'http://movie.douban.com/top250/' html = requests.get(url).text tree = lxml.html.fromstring(html) 2 提取数据 观察该网站html结构 可知该页面下所有电影包含在 ol 标签下。每个238 收藏
-
项目背景 在处理过程中,今天上午需要更新A字段,下午爬虫组完成了规格书或图片的爬取又需要更新图片和规格书字段,由于单表千万级深度翻页会导致处理速度越来越慢。 select a,b,c from db.t367 收藏
-
一、插入数据 VALUES的方式添加 使用一次只能向表中插入一条数据 为表的所有字段按默认顺序插入数据 INSERT INTO 表名VALUES (value1,value2,....); 值列表中须为表的每一个字段指定值 值的顺序必须和146 收藏