首页 > 文章 > java教程

Java高效去重读取整数文件并填充数组方法

时间：2026-03-12 12:09:39 471浏览收藏

本文深入剖析了Java中读取整数文件并去重填充数组的经典实践，直击因布尔标志变量作用域错误导致的重复判定失效这一隐蔽陷阱——将检测标志移至循环内部重置，彻底解决本应保留的唯一值被误判跳过的问题；同时融合健壮的异常处理（自动过滤非法输入与负数）、严谨的资源管理（finally关闭或推荐try-with-resources）、关键性能优化（break提前终止、边界越界防护）及可扩展建议（大数据量下切换HashSet），提供了一套正确、高效、易读且生产就绪的解决方案，特别适合夯实基础逻辑思维与提升工程实践能力。

本文详解如何在 Java 中正确读取整数文件、自动过滤重复值与非法输入，并将唯一非负整数安全填入预分配数组，重点修复因变量作用域导致的重复判定失效问题。

在 Java 中从文件读取整数并去重填充数组是一个常见但易出错的任务。原始代码的核心缺陷在于布尔标志 ID 的声明位置不当：它被定义为方法级变量（boolean ID = false;），在循环中一旦被置为 true（发现某重复值），该状态会持续影响后续所有数字的判定，导致本应保留的“新唯一值”被错误跳过——最终仅成功录入 11 个而非全部 10 个唯一正整数（注意：题干中“10 唯一、10 复制”共 20 个整数，目标是填入 10 个唯一值）。

关键修复在于将 ID 声明移至 while 循环内部，确保每次处理新数字时都以干净的 false 状态开始检测：

private static int read(String inFileName, int[] list) {
    int size = 0;
    Scanner inFile = null;
    int trash = 0, uniqueCount = 0, dupeCount = 0, lineCount = 0;

    try {
        inFile = new Scanner(new File(inFileName));
        while (inFile.hasNext()) {
            lineCount++;
            boolean isDuplicate = false; // ✅ 每次迭代重置标志位

            try {
                int val = inFile.nextInt();
                if (val < 0) {
                    trash++;
                    continue;
                }

                // 遍历已存唯一值，检查是否重复
                for (int i = 0; i < size; i++) {
                    if (list[i] == val) {
                        isDuplicate = true;
                        dupeCount++;
                        break; // ✅ 找到即退出，提升效率
                    }
                }

                // 仅当非重复且数组未满时写入
                if (!isDuplicate && size < list.length) {
                    list[size] = val;
                    size++;
                    uniqueCount++;
                }

            } catch (InputMismatchException e) {
                trash++;
                inFile.nextLine(); // 跳过整行非法输入
            }
        }

        System.out.printf("Lines: %d | Unique: %d | Duplicates: %d | Invalid/Negative: %d%n", 
                         lineCount, uniqueCount, dupeCount, trash);

    } catch (FileNotFoundException e) {
        System.err.println("Error: File '" + inFileName + "' not found.");
        return 0;
    } finally {
        if (inFile != null) inFile.close(); // ✅ 防止资源泄漏
    }

    return size;
}

重要注意事项与最佳实践：

资源管理：务必在 finally 块中关闭 Scanner，避免文件句柄泄露；现代写法推荐使用 try-with-resources（需调整方法签名）；
性能优化：break 语句在内层 for 循环中及时终止比较，避免无效遍历；
边界防护：size < list.length 判断防止数组越界，是健壮性的基本保障；
命名规范：将 ID 改为语义清晰的 isDuplicate，增强可读性与可维护性；
扩展建议：若数据量增大（如千级以上），应改用 HashSet 实现 O(1) 查重，时间复杂度从 O(n²) 降至 O(n)；
输入校验强化：当前逻辑忽略负数，如需支持负数去重，只需移除 val < 0 判断即可。

此实现兼顾正确性、可读性与鲁棒性，适用于教学及中小型数据场景。掌握变量作用域与循环内状态重置原则，是规避此类逻辑陷阱的关键。

理论要掌握，实操不能落！以上关于《Java高效去重读取整数文件并填充数组方法》的详细介绍，大家都掌握了吧！如果想要继续提升自己的能力，那么就来关注golang学习网公众号吧！