让这世界再多一份 GNU m4 教程（终结篇）

扶文光

2023-12-01

上一篇：http://segmentfault.com/a/1190000004131031

难以驾驭的引号

对于自己定义的宏，建议先在你的大脑中对它进行逐步展开，确信自己完全理解这个展开过程。如果大脑的堆栈不够用，可以用纸和笔记录展开过程。这样可以在很大程度上提高宏定义的正确性。

m4 宏调用的复杂之处在于嵌套的宏调用——在一个宏的展开结果中调用了其他宏。例如，宏 A 的展开结果中调用了宏 X，如果期望 X 先于 A 被 m4 展开，那么在 A 的定义中就不要在 X 的外围加引号。如果在期望 A 展开后，当 m4 再度读取 A 的展开结果的过程中再展开 X，那么 X 的外围必须要有引号。再复杂一些，如果宏 X 的展开结果中又调用了宏 Y，并且期望 Y 是在 m4 再度读取 X 展开结果的过程中被展开，那么 Y 的外围也必须要有一重引号，此时因为 X 外围已经有了一重引号，那么 Y 实际上是处于两重引号的包裹之中。

m4 处理引号的基本规则是：在读取带引号的文本片段 S 时，无论 S 中含有多少重引号，m4 只消除其最外层引号，然后将剩余的文本直接发送到输出流。这个规则很简单，之前已经提到过一次。需要注意的是，如果在宏的参数列表中出现了引号，一定要记住宏的参数列表总是在宏展开之前被处理的。看下面的例子：

define(`echo', `$1')
define(`test', echo($1))
test(test)

在 test 宏定义过程中，echo($1) 先被 m4 展开了，结果为空字串，导致 test 宏定义语句中的宏体变成空字串，即：

define(`test', `')

接下来，test(test) 是嵌套的宏调用，括号内的 test 会先被展开，展开结果是空字串，导致括号外面的 test 被展开之前的形式变为：

test()

此时，test 宏接受了一个参数——空字串，然后它会被 m4 展开，展开结果为空字串。这个结果并非是因为 test 宏接受了空字串参数所导致的。

现在改动一下 test 的定义：

define(`echo', `$1')
define(`test',`echo($1)')
test(test)

由于引号的抑制作用，test 宏体中的 echo 不会先于 test 定义完成之前被 m4 展开。test(test) 的宏展开次序依然同上，m4 先展开括号里面的 test，得到：

test(echo())

然后，m4 不会去展开括号外层的 test，而是先去展开括号里面的 echo 宏，因为它认为括号里面的文本是括号外面的 test 宏的参数，结果变为：

test()

接下来，test() 会被展开为空字串。

下面改动一下 test 宏调用语句：

define(`echo', `$1')
define(`test',`echo($1)')
test(`test')

这时，括号里面的 test 就不再是宏调用了，而是括号外面的 test 宏的一个参数。test(test) 宏会被展开为：

echo(test)

由于 m4 会将宏的展开结果插入到剩余的输入流中继续读取并处理，所以上述结果被进一步处理为：

echo(echo())

再进一步处理为：

echo()

最终的处理结果依然是一个空字串。

虽然这两次改动并没有得到新的结果，但是显然宏展开的过程并不相同。宏参数中的引号的作用并不是那么显而易见。大部分 m4 宏出错，宏参数中的引号往往是首恶元凶。要驾驭它，只能凭借自己的明确的逐步推导。这也导致了一个问题，很难用 m4 描述复杂的宏逻辑。

作为一次小挑战，请用笔在纸上推导下面 m4 宏的展开结果：

define(`echo', `$1')
define(`test',`echo($1)')
test(``test'')

然后使用 m4 -dV your-m4-file 印证自己的推导。注意， m4 -dV 所显示的宏展开过程，会对每个宏的展开结果包装一层引号，这其实是多余的引号，它只代表 m4 对宏的展开结果总是字符串。

非法的宏名

下面这个宏定义：

define(`?N?', 1)

m4 会认为 ?N? 这个宏是不合法的，因为合法的宏的名字必须要遵守正则表达式 [_a-zA-Z][_a-zA-Z0-9]*。不过，GNU m4 是仁慈的，对于不合法的宏，它依然能展开，前提是借助 m4 内建的 defn 宏：

?N?           # -> ?N?
defn(`?N?')   # -> 1

非法的宏名可以用来模拟数组或 Hash 表，例如：

define(`_set', `define(`$1[$2]', `$3')')
define(`_get', `defn(`$1[$2]')')
_set(`myarray', 1, `alpha')
_get(`myarray', 1)                  # -> alpha
_set(`myarray', `alpha', `omega')
_get(`myarray', _get(`myarray',1))  # -> omega
defn(`myarray[alpha]')              # -> omega

外援

GNU m4 内建了几个与 Shell 交互的宏，诸如 syscmd, esyscmd, sysval, mkstemp 等，其中最有用的是 esyscmd，因为它不仅能访问 Shell，而且还能获取 Shell 命令产生的输出。例如，下面这行 m4 代码可以借助 Shell 调用 GNU guile——GNU 的 Scheme 解释器来计算阶乘：

esyscmd(`guile -c "(define (factorial n)
                     (if (= n 1)
                      1
                     (* n (factorial (- n 1)))))
                   (display (factorial 100))"')

如果你的系统中安装了 GNU guile，并且有一个 Shell 可用（既然是 m4 用户，系统中没有 Shell 说不过去的），那么 m4 对上述 esyscmd 宏的展开结果为：

93326215443944152681699238856266700490715968264381621468592963895217599993229915608941463976156518286253697920827223758251185210916864000000000000000000000000

这样写也行：

define(`scheme_code',
`"`(define (factorial n)
   (if (= n 1)
    1
    (* n (factorial (- n 1)))))
 (display (factorial 100))'"')

esyscmd(`guile -c' scheme_code)

凡是能在 Shell 中运行并产生输出的程序，皆能被 GNU m4 所用，这是不是很神奇？

文本处理

我一直都忍着不去谈 GNU m4 针对文本处理提供的几个内建宏，主要是因为既然有 esyscmd 这样的宏可用，那么类 Unix 系统中那些很无敌的文本处理工具，诸如 tr, cut, paste, wc, md5sum, sed, awk, grep/egrep 等等，它们皆能被 m4 所用，那么何必再多此一举？

倘若是为了让 m4 脚本更具备可移植性，那么最好是将一个比较完整的 Shell 环境移植到目标平台……对于主流操作系统而言，这并不是太困难的事，因为已经有了很多针对不同操作系统的完整的 Shell 环境实现。

如果依然坚持用 m4 的方式处理文本，建议阅读：『GNU m4 Text Handling』。

结束语

这份 GNU m4 指南至此终结。作为学习者，务必要记住 m4 官方手册的告诫之语：有些人对 m4 非常着迷，他们先是用 m4 解决一些简单的问题，然后解决了一个比一个更大的问题，直至掌握如何编写一个复杂的 m4 宏集。若痴迷于此，往往会对一些简单的问题写出复杂的 m4 脚本，然后耗费很多时间去调试，反而不如直接手动解决问题更有效。所以，对于程序猿中的强迫症患者，要对 m4 有所警惕，它可能会危及你的健康。

如果不想让 m4 危及你的健康，永远要记住：宏是用来缩写那些复杂但是又经常重复出现的文本模式的。

让这世界再多一份 GNU m4 教程（终结篇）

难以驾驭的引号

非法的宏名

外援

文本处理

结束语

相关阅读

相关文章

相关问答

相关文档