首页 > 文章 > java教程

统计单词出现次数的技巧与工具

时间：2026-01-05 20:01:10 101浏览收藏

文章小白一枚，正在不断学习积累知识，现将学习到的知识记录一下，也是将我的所得分享给大家！而今天这篇文章《统计单词出现次数的实用方法》带大家来了解一下##content_title##，希望对大家的知识积累有所帮助，从而弥补自己的不足，助力实战开发！

如何统计目标单词在文本文件中出现的次数

本文详解如何使用 Java 正确读取文本文件并精确统计用户指定单词在整个文件中的完整匹配次数，修正常见逻辑错误（如仅读首行、未逐行遍历、误用 `contains()` 导致子串误判等），并提供健壮、可运行的完整示例代码。

在原始代码中，存在几个关键性逻辑缺陷，直接导致计数始终为 0：

仅读取首行：szSearch = br.readLine(); 只读了一次第一行，后续未循环读取；
错误使用 contains()：while (szSearch.contains(szWord)) 并非计数逻辑——它会无限循环（因 szSearch 不变）或直接跳过，且 contains() 匹配的是子字符串（如搜索 "long" 会错误匹配 "longer" 或 "belong"）；
未按单词边界分割：未对每行内容进行合理分词，无法实现“完整单词”匹配。

✅ 正确做法是：逐行读取 → 按空白符切分为单词数组 → 逐个比对是否完全相等（区分大小写或忽略大小写）→ 累加匹配次数。

以下是修复后的完整、生产就绪代码（使用 try-with-resources 自动资源管理，增强健壮性与可读性）：

import java.io.*;
import java.util.Arrays;
import java.util.Scanner;

public class WordCounter {
    public static void main(String[] args) {
        Scanner szKeyboard = new Scanner(System.in);
        System.out.print("What word are you searching for? ");
        String targetWord = szKeyboard.nextLine().trim();
        System.out.println("Searching the file...");

        int count = 0;
        String fileName = "WORDLIST.txt";

        // 使用 try-with-resources 自动关闭流，更安全简洁
        try (BufferedReader br = new BufferedReader(new FileReader(fileName))) {
            String line;
            while ((line = br.readLine()) != null) {
                // 按空白字符（空格、制表符、换行等）分割为单词
                String[] words = line.split("\\s+");
                for (String word : words) {
                    // 去除单词前后可能的标点/空格，并进行精确匹配（可选：忽略大小写用 .equalsIgnoreCase）
                    if (!word.isEmpty() && word.equals(targetWord)) {
                        count++;
                    }
                }
            }
        } catch (FileNotFoundException e) {
            System.err.println("Error: File '" + fileName + "' not found.");
        } catch (IOException e) {
            System.err.println("Error reading file: " + e.getMessage());
        } finally {
            szKeyboard.close();
        }

        System.out.println("The word \"" + targetWord + "\" appears " + count + " times in the file " + fileName + ".");
        System.out.println("\n\n--- File End ---");
    }
}

? 关键改进说明：

✅ 使用 while ((line = br.readLine()) != null) 实现逐行遍历全文件；
✅ line.split("\\s+") 基于正则 \\s+（一个或多个空白符）准确分词，避免空字符串干扰；
✅ word.equals(targetWord) 确保全词精确匹配（若需忽略大小写，替换为 word.equalsIgnoreCase(targetWord)）；
✅ try-with-resources 替代手动 close()，杜绝资源泄漏风险；
✅ 细粒度异常处理：分别捕获 FileNotFoundException 和通用 IOException，提升调试友好性。

⚠️ 注意事项：

若 WORDLIST.txt 中单词以逗号、句号等标点连接（如 "hello, world."），建议先用正则清洗：word = word.replaceAll("[^a-zA-Z]", "")；
对于超大文件，可考虑使用 Files.lines(Paths.get(fileName)) 配合 Stream API 进行函数式处理；
生产环境推荐使用 Apache Commons IO 或 Guava 库简化 I/O 操作，但本例保持零依赖，纯 JDK 实现。

掌握此模式后，你不仅能准确统计单词频次，还可轻松扩展为：统计多词、生成词频表、支持正则模糊匹配等高级功能。

理论要掌握，实操不能落！以上关于《统计单词出现次数的技巧与工具》的详细介绍，大家都掌握了吧！如果想要继续提升自己的能力，那么就来关注golang学习网公众号吧！