问题：

分析字符串antlr

墨宜人

2023-03-14

我将字符串作为解析器规则而不是词法分析器，因为字符串可能包含带有表达式的转义，例如“变量是\（变量）”。

string
 : '"' character* '"'
 ;

character
 : escapeSequence
 | .
 ;

escapeSequence
 : '\(' expression ')'
 ;

IDENTIFIER
 : [a-zA-Z][a-zA-Z0-9]*
 ;

WHITESPACE
 : [ \r\t,] -> skip
 ;

这不起作用，因为匹配任何标记，而不是任何字符，因此许多标识符将被匹配，空白将被完全忽略。

如何解析可以包含表达式的字符串？

查看Swift和Javascript的解析器，这两种语言都支持这样的东西，我不知道它们是如何工作的。据我所知，它们只是输出一个字符串，例如“我的字符串中包含（变量）”，而实际上无法将变量解析为它自己的东西。

颛孙昆

2023-03-14

匿名用户

这个问题可以使用词法模式来解决，方法是字符串内部有一个模式，外部有一个（或多个）模式。看到外面的"会切换到里面的模式，看到外面的\（or"会切换回外面。唯一复杂的部分是在外面看到一个）：有时它应该切换回内部（因为它对应于\（），有时它不应该（当它对应于纯（）。

实现这一目标的最基本方法如下：

Lexer：

lexer grammar StringLexer;

IDENTIFIER: [a-zA-Z_][a-zA-Z0-9_]* ;
DQUOTE: '"' -> pushMode(IN_STRING);
LPAR: '(' -> pushMode(DEFAULT_MODE);
RPAR: ')' -> popMode;

mode IN_STRING;

TEXT: ~[\\"]+ ;

BACKSLASH_PAREN: '\\(' -> pushMode(DEFAULT_MODE);

ESCAPE_SEQUENCE: '\\' . ;

DQUOTE_IN_STRING: '"' -> type(DQUOTE), popMode;

分析器：

parser grammar StringParser;

options {
    tokenVocab = 'StringLexer';
}

start: exp EOF ;

exp : '(' exp ')'
    | IDENTIFIER
    | DQUOTE stringContents* DQUOTE
    ;

stringContents : TEXT
               | ESCAPE_SEQUENCE
               | '\\(' exp ')'
               ;

在这里，我们每次看到一个（或\（）时都会推默认模式，每次看到一个）时都会弹出该模式。这样，只有当堆栈顶部的模式是字符串模式时，它才会返回字符串内部，只有在上一次之后没有任何未关闭的（）（）。

这种方法有效，但缺点是不匹配的）将导致空堆栈异常而不是正常的语法错误，因为我们在空堆栈上调用popMode。

为了避免这种情况，我们可以添加一个成员来跟踪括号内的嵌套深度，并且在嵌套级别为0时（即，如果堆栈为空）不会弹出堆栈：

@members {
    int nesting = 0;
}

LPAR: '(' {
    nesting++;
    pushMode(DEFAULT_MODE);
};
RPAR: ')' {
    if (nesting > 0) {
        nesting--;
        popMode();
    }
};

mode IN_STRING;

BACKSLASH_PAREN: '\\(' {
    nesting++;
    pushMode(DEFAULT_MODE);
};

（我遗漏的部分与前一版本中的相同）。

这会对不匹配的）产生正常语法错误。但是，它包含动作，因此不再是语言不可知的，这只是计划使用多种语言的语法时的问题（根据语言的不同，您甚至可能很幸运，代码可能在所有目标语言中都有效）。

如果要避免操作，最后一种选择是使用三种模式：一种用于任何字符串外部的代码，一种用于字符串内部，另一种用于<代码>\（）内部。第三个模式与外部模式几乎相同，只是当看到括号时，它会推动并弹出模式，而外部模式则不会。为了使两种模式产生相同类型的令牌，第三种模式中的规则都将调用type（）。如下所示：

lexer grammar StringLexer;

IDENTIFIER: [a-zA-Z_][a-zA-Z0-9_]* ;
DQUOTE: '"' -> pushMode(IN_STRING);
LPAR: '(';
RPAR: ')';

mode IN_STRING;

TEXT: ~[\\"]+ ;

BACKSLASH_PAREN: '\\(' -> pushMode(EMBEDDED);

ESCAPE_SEQUENCE: '\\' . ;

DQUOTE_IN_STRING: '"' -> type(DQUOTE), popMode;

mode EMBEDDED;

E_IDENTIFIER: [a-zA-Z_][a-zA-Z0-9_]* -> type(IDENTIFIER);
E_DQUOTE: '"' -> pushMode(IN_STRING), type(DQUOTE);
E_LPAR: '(' -> type(LPAR), pushMode(EMBEDDED);
E_RPAR: ')' -> type(RPAR), popMode;

注意，我们现在不能再在解析器语法中使用字符串文字，因为当使用相同的字符串文字定义多个lexer规则时，不能使用字符串文字。因此，现在我们必须使用LPAR而不是解析器中的LPAR（等等）（出于同样的原因，我们已经为DQUOTE做了这件事）。

由于此版本涉及大量重复（尤其是当标记数量增加时），并且防止在解析器语法中使用字符串文字，因此我通常更喜欢带有操作的版本。

分析字符串antlr

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档