Pandoc可以实现常用文档格式之间的相互转换,包括HTML、LaTeX、docx、Markdown等。
语法
pandoc [options] inputfiles
Pandoc采用UTF-8编码方案处理输入输出文件。
常用参数说明
--from=FORMAT, -f FORMAT
--to=FORMAT, -t FORMAT
指定输入输出文件的格式,如果没有指定输入输出文件格式,则通过文件扩展名推测文件格式。使用以下命令列出支持的输入输出文件格式:
pandoc --list-input-formats
pandoc --list-output-formats
使用FORMAT+EXTENSION和FORMAT+EXTENSION可以增减相应格式中的一个或多个扩展选项。使用以下命令列出Pandoc支持的扩展
pandoc --list-extensions
pandoc --list-extensions=FORMAT
--output=FILE, -o FILE
如果没有指定输出文件,则输出至标准输出(stdout),默认格式为HTML。
--file-scope
如果给出多个输入文件,则默认将多个文件拼接起来(添加空行分隔)。使用此选项分别转换每一个文件。
-standalone, -s
默认生成文档片段。使用此选项后,Pandoc将使用一个模板来添加必要信息,以生成完整的文件(HTML、LaTeX等)。
--template=FILE
当使用standalone选项时,Pandoc默认采用内置模板。使用template选项指定创建文档所需的模板后,Pandoc将默认生成完整文件。内置模板可以通过以下命令输出:
pandoc -o file_template --print-default-template=FORMAT
pandoc -o file_template -D FORMAT
其中FORMAT表示输出格式。
模板中包含变量,用于自定义模板。变量可用过命令行参数提供,或从文档的元数据中查找(YAML元数据语句块或-M/--metadata选项)。模板中的变量表示方法为
$title$
针对变量variable的条件语句表示方法
$if(variable)$
X
$else$
Y
$endif$
根据变量的值,相应的语句块将被写入输出文件。类似地,如果变量author是一个数组,则可以使用循环语句
$for(author)$
X
$endfor$
--metadata=KEY[:VAL], -M KEY[=VAL]
设置文档元数据:指定KEY的值为VAL。如果没有提供VAL,则KEY默认值为true。
--variable=KEY[:VAL], -V KEY[=VAL]
设置模板元数据。
--metadata-file=FILE
从指定的YAML(或JSON)文件中读取元数据。命令行提供的元数据信息将覆盖文件中的信息。
--css=URL, -c URL
指定CSS样式表。
--number-sections, -N
对标题进行编号(LaTeX,HTML等,不包括docx)。
转换为HTML
数学公式渲染
--mathjax[=URL]
--mathml
--katex[=URL]
转换为PDF/LaTeX
Pandoc默认使用pdflatex生成PDF,也可以使用ConTeXt,pdfroff或HTML/CSS-to-PDF引擎(wkhtmltopdf , weasyprint或prince)。
LaTeX
参数列表
-o output.pdf
--pdf-engine=xelatex
--template=FILE
source.md
说明
--pdf-engine=PROGRAM
指定生成PDF的排版程序,用于LaTeX排版的程序包括:pdflatex, lualatex, xelatex, latexmk等。
--print-default-template=latex
输出默认的latex文档模板。Pandoc可以采用此模板将Markdown文档转换为tex源码文档( Pandoc默认模板不能很好支持中文)。pm-template.tex是一个可用的模板。
为了调试PDF的创建,可以先输出tex文件并使用latex编译器单独编译。
使用latex时,需要保证本地有必要的包(可以根据编译信息判断是否缺少必要的包,使用MikTeX可以按需下载缺少的包。)
可选参数
--listings
在LaTeX文档中使用listings包来格式化代码块。
--biblatex, --natbib
指定处理参考文献的程序。
--bibliography=FILE
设置文档元数据中的参考文献信息,等效于
--metadata bibliography=FILE --filter pandoc-citeproc
如果使用了biblatex或natbib选项,则等效于
--metadata bibliography=FILE
转换为Word文档 (DOCX)
参数列表:
-o output.docx
--reference-doc=custom.docx
source.md
--reference-doc=FILE
使用指定的文件作为输出文件的格式参考。参考文件的内容被忽略,只使用其中的样式和文档属性(包括边界、页面尺寸、页眉页脚等)。通过以下命令获取系统中的默认模板(reference.docx)。
pandoc -o custom.docx --print-default-data-file=reference.docx
注意:需要在--print-default-data-file选项之前使用-o选项以重定向输出。
用户可以按需修改并更新上述输出的默认参考文档中的样式,并将其作为转换的参考模板。
Word文档转换为其他类型
--extract-media= DIR
提取word文档中的图片等多配体文件到目标文件夹,并在目标文件中设置对这些文件的引用。
转换为epub
--epub-cover-image=FILE
添加封面。
--epub-metadata=FILE
添加元数据。
--epub-embed-font=FILE
嵌入字体。
文档元数据和选项
使用YAML提供文档元数据,可设置的信息参考Pandoc手册。基本使用方法如下所示。
# comments
title: "This is the title"
indent: true
linestretch: 1.25
author:
- Author One
- Author Two
description: | # paragraphs
This is a long
description.
It consists of two paragraphs