登录
首页 >  文章 >  前端

保留引号内的短语进行文本分词的JavaScript方法,可以使用正则表达式来识别并保留引号内容,同时对其他部分进行分词。以下是一个示例方法:functiontokenizeWithQuotedPhrases(text){//匹配引号中的内容(单引号或双引号)constquotedRegex=/(['"])(.*?)\1/g;letresult=[];letlastIndex=0;//使用match

时间:2025-09-10 08:45:56 138浏览 收藏

在JavaScript中,如何准确地将文本字符串分解为独立的词语和短语,同时保留双引号内的完整短语?本文提出了一种基于有限状态机(FSM)的解决方案,旨在解决传统`split()`方法在处理包含引号短语文本时遇到的难题。该方法通过定义“word”和“phrase”两种状态,并根据字符类型和当前状态进行转换,从而实现对文本的精确解析。文章详细阐述了FSM的实现原理,并提供JavaScript代码示例,展示了如何处理多余空格、引号内部空格以及引号缺失等复杂情况,最终输出一个包含所有独立词语和完整短语的数组,为JavaScript文本处理提供了一种更智能、更可靠的方法。

文本分词与带引号短语保留的JavaScript实现

本文详细介绍了如何在JavaScript中将文本字符串拆分为独立的词语,同时确保双引号内的短语作为一个整体被保留。通过采用有限状态机(FSM)的原理,我们能够健壮地处理各种复杂的输入情况,包括多余空格、引号内部的空格以及引号缺失等边缘情况,最终输出一个包含所有独立词语和完整短语的数组。

文本解析挑战:词语与短语的分离

在处理用户输入或文本数据时,我们经常需要将一个长字符串拆分成独立的“词语”或“标记”(tokens)。然而,简单的空格分割(例如 string.split(' '))往往不足以应对复杂场景,特别是当我们需要将双引号内的短语视为一个不可分割的整体时。例如,对于输入字符串 "on time" flight,我们期望得到的结果是 ["on time", "flight"],而不是 ["\"on", "time\"", "flight"]。

传统的 split(' ') 方法会错误地将 "on time" 分割成 ""on 和 time"",这显然不符合我们的预期。为了解决这一问题,我们需要一种更智能的解析策略,能够识别并处理双引号的边界。

有限状态机(FSM)解析策略

处理这类字符串解析问题的强大工具是有限状态机(Finite-State Machine, FSM)。FSM通过定义一组“状态”和“状态转换规则”,来模拟解析过程。在我们的场景中,可以定义两种主要状态:

  1. word 状态:表示当前正在解析一个普通的词语(不在双引号内)。
  2. phrase 状态:表示当前正在解析一个双引号内的短语。

解析器会根据当前字符和当前状态,决定是继续累积当前词语/短语,还是切换到另一个状态,并完成当前词语/短语的收集。

FSM的实现细节

下面我们将通过一个JavaScript函数 splitToWordsWithQuotes 来实现这个FSM解析器:

function splitToWordsWithQuotes(str) {
    let mode = null; // null: 初始状态/空白状态, 'word': 正在解析词语, 'phrase': 正在解析短语
    const words = []; // 存储解析出的词语和短语
    let currentToken = ''; // 临时存储当前正在构建的词语或短语

    // 辅助函数:完成当前词语/短语的收集,并重置 currentToken
    const completeToken = () => {
        if (currentToken.length > 0) { // 只有当 currentToken 非空时才添加
            words.push(currentToken);
            currentToken = '';
        }
    };

    for (let i = 0; i < str.length; i++) {
        const char = str[i];

        // 1. 初始状态或空白状态 (mode 为 null)
        if (mode === null) {
            if (char === ' ') {
                continue; // 跳过前导空格
            }
            if (char === '"') {
                mode = 'phrase'; // 遇到双引号,进入短语模式
            } else {
                currentToken += char;
                mode = 'word'; // 遇到非空格非引号字符,进入词语模式
            }
            continue;
        }

        // 2. 处理双引号字符
        if (char === '"') {
            completeToken(); // 遇到引号,意味着当前词语/短语结束
            // 切换模式:如果当前是词语模式,则下一个是短语;如果是短语模式,则下一个是词语。
            // 实际上,这里是结束当前短语模式,并准备进入下一个词语模式 (或等待下一个引号进入短语模式)
            // 修正:当遇到引号时,总是结束当前模式,并将模式设为 null,等待下一个字符决定新模式。
            // 更精确的做法是:如果当前是 phrase 模式,引号表示短语结束,回到 null 模式。
            // 如果当前是 word 模式,引号表示词语结束,进入 phrase 模式。
            // 考虑到FSM的简洁性,这里可以简化为:引号总是完成当前token,并切换模式。
            // 如果当前是 'word' 模式,遇到 '"',表示词语结束,进入 'phrase' 模式。
            // 如果当前是 'phrase' 模式,遇到 '"',表示短语结束,回到 'null' 模式(等待下一个token的开始)。
            mode = (mode === 'phrase') ? null : 'phrase';
            continue;
        }

        // 3. 处理空格字符
        if (char === ' ') {
            if (mode === 'phrase') {
                currentToken += ' '; // 在短语模式下,空格是短语内容的一部分
                continue;
            }
            // 在词语模式下,空格表示当前词语结束
            completeToken();
            mode = null; // 回到 null 模式,等待下一个词语或短语的开始
            continue;
        }

        // 4. 处理其他字符 (字母、数字等)
        currentToken += char; // 将字符添加到当前词语/短语中
        // 如果当前是 null 模式,且遇到非空格非引号字符,则进入 'word' 模式
        if (mode === null) {
            mode = 'word';
        }
    }

    // 循环结束后,确保最后一个词语/短语被收集
    completeToken();

    return words;
}

示例代码与运行效果

为了更好地理解上述FSM的工作原理,我们提供一些测试用例:

const myStr = '    "hello guys", some     words with "quotes inside" some spaces inside " please keep quoted words as one "phrase / word" end-of-line ';
const myWrongStr = '"hello guys", some words" with "quotes inside" please keep quoted words as one "phrase / word" '; // 包含未闭合引号的示例

console.log('--- 正常输入示例 ---');
console.log('输入:', myStr);
console.log('输出:', splitToWordsWithQuotes(myStr));
// 预期输出: ["hello guys", "some", "words", "with", "quotes inside", "some", "spaces", "inside", "please", "keep", "quoted words as one", "phrase / word", "end-of-line"]

console.log('\n--- 包含未闭合引号的示例 ---');
console.log('输入:', myWrongStr);
console.log('输出:', splitToWordsWithQuotes(myWrongStr));
// 预期输出: ["hello guys", "some", "words\" with \"quotes inside", "please", "keep", "quoted words as one", "phrase / word"]
// 注意:对于未闭合的引号,FSM会将其视为普通字符,或将后续内容都视为短语的一部分,直到遇到下一个引号或字符串结束。

console.log('\n--- 原始问题示例 ---');
const originalInput = '"on time" "flight"';
console.log('输入:', originalInput);
console.log('输出:', splitToWordsWithQuotes(originalInput));
// 预期输出: ["on time", "flight"]

代码解析:

  • mode 变量:是FSM的核心,它跟踪当前解析器所处的状态。
    • null:表示当前不在解析任何词语或短语,可能处于多个词语/短语之间的空白区域。
    • 'word':表示正在收集一个普通词语。
    • 'phrase':表示正在收集一个双引号内的短语。
  • words 数组:用于存储最终解析出的所有词语和短语。
  • currentToken 变量:一个字符串缓冲区,用于累积当前正在解析的词语或短语的字符。
  • completeToken() 辅助函数:当一个词语或短语完成时(例如遇到空格或引号),此函数将 currentToken 添加到 words 数组中,并清空 currentToken 以便开始收集下一个。
  • 循环遍历字符:代码逐个字符地检查输入字符串。
  • 状态转换逻辑
    • 遇到空格
      • 如果在 'phrase' 模式下,空格被视为短语的一部分,直接添加到 currentToken。
      • 如果在 'word' 模式下,空格表示当前词语结束,调用 completeToken() 并将 mode 重置为 null。
    • 遇到双引号 "
      • 无论当前处于何种模式,双引号都意味着当前 currentToken 的结束。调用 completeToken()。
      • 然后,如果之前是 'phrase' 模式,则双引号表示短语结束,mode 切换回 null(等待下一个词语/短语)。
      • 如果之前是 null 或 'word' 模式,双引号表示开始一个新短语,mode 切换到 'phrase'。
    • 遇到其他字符
      • 这些字符总是添加到 currentToken。
      • 如果 mode 是 null,则表示开始了一个新词语,将 mode 设置为 'word'。
  • 循环结束后的处理:在 for 循环结束后,需要再次调用 completeToken(),以确保字符串末尾的任何未完成的词语或短语被正确收集。

注意事项与扩展

  1. 未闭合的引号:当前的FSM实现对于未闭合的引号,会将后续内容都视为短语的一部分,直到字符串结束或遇到下一个引号。如果需要更严格的错误处理(例如抛出错误或记录警告),可以在 phrase 模式下,在循环结束后检查 mode 是否仍为 'phrase'。
  2. 转义引号:如果短语内部可能包含转义的双引号(例如 \"),当前的FSM不会将其视为普通字符,而是会错误地将其解释为短语的结束。处理这种情况需要更复杂的FSM逻辑,例如引入一个“转义字符”状态。
  3. 性能:对于非常长的字符串,逐字符遍历的FSM通常比正则表达式具有更好的性能和可读性,尤其是在处理复杂嵌套或状态依赖的解析任务时。
  4. 后处理:本教程的FSM旨在将字符串解析成一个词语/短语数组。如果需要将此数组进一步格式化成特定的字符串(例如,将短语用 \" 包裹并连接),则需要额外的后处理步骤。例如,如果需要将 ["on time", "flight"] 转换为 ""on time"flight",可以这样做:
    const tokens = splitToWordsWithQuotes('"on time" "flight"');
    const formattedOutput = tokens.map(token => {
        // 如果token包含空格,通常意味着它是一个短语,用双引号包裹
        if (token.includes(' ')) {
            return `"${token}"`; // 或者 `\\"${token}\\"` 如果需要字面量反斜杠
        }
        return token;
    }).join('');
    console.log('格式化后的输出:', formattedOutput); // 示例输出: "on time"flight

    请注意,原始问题中期望的 ""ON TIME"FLIGHT" 格式可能包含额外的转义或特定含义,需要根据具体需求调整后处理逻辑。

总结

通过采用有限状态机(FSM)的方法,我们能够健壮且高效地将复杂的文本字符串拆分为独立的词语和带引号的短语。这种方法不仅解决了简单 split() 函数的局限性,还为处理更复杂的文本解析任务提供了可扩展的基础。理解FSM的原理并将其应用于字符串处理,是提升JavaScript编程技能的重要一步。

以上就是《保留引号内的短语进行文本分词的JavaScript方法,可以使用正则表达式来识别并保留引号内容,同时对其他部分进行分词。以下是一个示例方法:functiontokenizeWithQuotedPhrases(text){//匹配引号中的内容(单引号或双引号)constquotedRegex=/(['"])(.*?)\1/g;letresult=[];letlastIndex=0;//使用matchAll来获取所有匹配项constmatches=[...text.matchAll(quotedRegex)];for(constmatchofmatches){const[fullMatch,quoteChar,content]=match;//添加引号前的文本(如果有的话)if(lastIndex

相关阅读
更多>
最新阅读
更多>
课程推荐
更多>