ebook
电子书或电子书已经存在很长时间了,但是阅读电子书的便捷设备是相对较新的发展。 在手机,平板电脑和专用电子书阅读器之间,您生活中的某些设备很可能会用来阅读电子书。 这对于提高您的阅读量非常有用,但这引出了一个问题,即电子书有哪些开放文件格式,哪些是最好的。
电子书很棒。 我使用它们的时间比专门读者要长得多。
我很欣赏电子书使我能够随身携带多本文本,而不必承担数张纸的重担。 当然,在杂货店里排队等候时,我可能没有真正阅读过儒勒·凡尔纳的全部作品,但是让我知道以防万一,我感到很欣慰。 我也很欣赏他们给我找到我最喜欢的引文或段落的能力,以及视力不佳的读者可以放大文本以便阅读的事实,或者完全盲目的读者可以使他们的计算机阅读文本的事实。 我很高兴能在“重组文本”会议上做笔记,并将我的笔记与Pandoc转换为完全超链接的电子书,以供乘飞机回家时查看。
首先,让我们确定本文仅介绍开放文件格式,以及原因。 电子书的开放格式最明显的优点是,开放格式可以转换为任何其他格式,这意味着您的图书可以在任何设备上阅读。 当您获得一种格式的书籍并拥有只能读取其他格式的设备或操作系统(OS)时,技术就会失败。 使用开放格式的基本级别不会发生这种情况。
开放格式还确保任何人都可以创建电子书。 笔和纸非常通用,因此,如果电子书格式关闭,那么我不妨学习速记。
最后,我只对完全开放的格式感兴趣; 有一些“足够开放”以进行转换,但开放度不足以使任何操作系统都可以创建它们,反之亦然。 这对我不起作用,特别是对于PowerPC Linux用户而言,x86二进制文件用于创建“某种开放式”电子书是没有用的。
有了序言,让我们看看那里有什么格式。
无需花力气:自从电子书以来,EPUB格式是电子书最好的事情。 它简单 ,轻巧,跨平台且用途广泛。 它是通过结合功能完善的现有技术来构建新技术的理想开源模型。 EPUB文件基本上是HTML文件的集合,其中一些元数据位于zip文件中。
听起来很花哨,而且技术上也不错,但是制作EPUB就像使用Pandoc进行一行命令一样简单,也可以从Libre Office导出。
这是我用来将会议记录转换为EPUB的命令:
$ pandoc -f rst -t epub3 notes.rst \
-o allThingsOpen2015.epub
一个更复杂的命令,用于最近在线出版的一本书:
$ pandoc -f markdown -t epub3 book.md colophon.md \
-N --epub-stylesheet = style.css \
--epub-metadata = metadata.xml
--epub-cover-image =。/ images / cover-front.svg \
--epub-embed-font = kabel.ttf \
--epub-embed-font = Nouveau_IBM.ttf \
-o slackermedia.epub
您甚至可以使用标准的系统工具生成EPUB。 一个放在zip容器顶部的单行mimetype文件将容器标识为EPUB文档,该目录包含所有HTML资产和文件的目录将呈现一个有效的EPUB文件。 适当的目录可能会变得更加复杂,但这足以使您入门:
$ echo“ application / epub + zip> mimetype
$ zip -0Xq book.epub mimetype
$ zip -Xr9D book.epub META-INF / OEBPS /
EPUB格式很受欢迎并且得到了很好的支持。 许多设备都支持它,或者它们支持可以读取它的应用程序。 Firefox插件EPUB Reader允许在运行Firefox的任何设备上轻松访问EPUB 。 FBReader在计算机和移动设备上打开它们。 紧要关头,甚至可以解压缩EPUB文件并将其视为原始HTML。
简而言之,EPUB格式没有障碍。 它是开放的,可访问的并且功能强大。
EPUB是电子书应有的格式,对我而言,EPUB是衡量所有其他格式的标准。 它在轻巧,开放且明智的容器中提供了丰富且易于阅读的书。
原始的eBook格式是普通的旧ASCII(尽管希望今天会选择Unicode)。 这是计算中最通用的格式; 任何平台上的任何操作系统都可以读取它,任何文本处理器都可以从中转换。
可以肯定地说,虽然纯文本可以持久地面向未来并且可以确保跨设备的兼容性,但这并不是电子书的理想格式。 但是,只要文档的布局一致,便可以将纯文本轻松解析为其他格式。 为了确保格式的一致性,请考虑使用“降级”规则,例如重组文本(RST) 。
FictionBook(.fb2)电子书是一种XML格式,可将整本书放在一个文件中,包括任何图像。 因此,它不是要存储扫描的文档(例如对整个漫画书的完整扫描或历史传真),而是要作为一大部分基于文本的书来存储一个或几个图像。
作为XML,它继承了我们希望从电子书中获得的所有现代功能。 它可以包含超链接,字体样式和复杂的布局。 它本身是动态的,因此它将流畅地包装文本以适应任何尺寸的屏幕。
生成FictionBook文件与生成XML文件一样容易。 可以在任何文本编辑器中进行此操作(如果您是受虐狂,则可以使用很多echo
语句),并且eReader会即时进行所有转换,以将图书显示为易于阅读的文档。
至少可以说,文件格式是XML,具有良好的结构,并且很容易被计算机甚至是人类解析(如果人类对XML标签视而不见)。
尽管FictionBook格式在某些语言中得到了支持,但它在英语电子书市场中并不流行,因此,您可能会或可能没有机会获得.fb2文件而无需专门查找它。
如果确实发生在某个人身上,或者打算生成自己的东西,那么这是否是您的“正确”选择完全取决于您使用的东西。 如果您使用或乐于开始使用读取.fb2文件的应用程序,那么它是一种非常完善的格式,具有自包含性和鲁棒性。
HTML是网络语言,是一种功能强大的文档格式,具有超链接,动态文本流,样式,图像链接等。 看来,这是作为eBook格式的理想选择,确实,它成为许多最受欢迎的eBook格式(包括EPUB)的基础。
HTML作为一种格式,不仅简单易学,而且无处不在。 您可以在任何平台上编写它,并且显然可以在任何平台上查看它。 与XML相比,它简单而幸福:
<p style =“ color:#666;”>
您好<a href=" http://example.com ">世界</a>。
<img src =“ images / tux.png” />
</ p>
HTML可能易于编写和阅读,但事实证明它存在一些缺点。 您也许可以链接到图像,但是如何将它们存储在哪里? 电子阅读器在将目录作为书籍时往往做得不好,因此某种程度上,图像的路径需要保持完整。 HTML作品也倾向于分成几页,因此一本25章的书可能包含25个以上的文件。 您如何在电子阅读器中管理所有这些?
答案是,您当然不会。 如果您已经从网络上下载了HTML文档的集合,并希望随身携带以备以后使用,请尝试将HTML打包为电子阅读器可以将其视为电子书的格式。 转换很简单,只要所有路径都是正确的(如果您在Firefox中查看包含HTML文件的文件夹,并且一切看起来正确,则您的路径是正确的),则可以使用Pandoc从HTML转换。 一个简单的示例,假设您的目标设备对EPUB感到满意:
$ pandoc -f html -t epub3 index.html about.html \
Chapter1.html colophon.html -o book.epub
HTML是一种很好的格式,在文件规范方面非常适合电子书,但是由于电子阅读器倾向于每本书假定一个文件,因此在兼容性方面苦苦挣扎。 如果您碰巧要随身携带一个充满HTML的目录,请将其转换为适当的eBook格式,以获得更好的兼容性。
PDF文件格式被开发为一种传递用于打印页面的内容的方法。 它最初被认为是“飞行前”渲染器:用户期望看到的与打印机完全一样的数字版本。
大概是因为缺少任何明显的东西,人们最终开始使用PDF作为分发几乎所有他们不希望其他用户直接编辑的文档的手段。
从某种意义上说,PDF格式更适合于传递样式而不是内容。 PDF往往很大,效率低下且具有特定的分辨率。 由于电子书的普及,已经开发了“重排”功能,尽管必须创建PDF并将重排写入其中,即使如此,也很少有设备支持该功能。
如果可以选择,请避免使用电子书用PDF。 如果您自己生成内容,请使用PDF以外的任何格式。 如果您在没有任何发言权的情况下获得了PDF,并且在设备上阅读时遇到困难(在第10页左右之后,不断放大内容以通过显微镜镜头阅读句子会变得很费力),请使用pdftotext从PDF中提取文本:
$ pdftotext〜/ book.pdf book-text.txt
或pdftohtml 。
$ pdftohtml〜/ book.pdf book-html.html
这些是获取PDF内容的好方法,但是结果(和可读性)各不相同。
事实是,将书籍从传统的排版转换为数字格式并非易事。 如果是这样的话, 古腾堡计划将在今天完成。 即使是经过扫描并通过光学字符识别运行的书,也需要进行大量清理,并且至少要进行一次错误检查。
有些书不能完全转换为文本文档,因为它们不仅仅是文本文档。 为了保留一些书籍,最好的解决方案是扫描每页,然后将所有扫描结果转储到某个容器中。
看来,这是PDF的完美用例,并且出于兼容性的考虑,但是,如果您的电子阅读器功能特别丰富,或者您在计算机或移动设备上阅读电子书,则可能支持漫画书档案或Djvu。
DjVu格式不仅是电子书格式,还是压缩格式。 DjVu文件通常较小,甚至比jpeg小,但质量相同。 对于小型电子书而言,差异可能是微不足道的,但对于较大的作品,这可能意味着80mb下载与20mb下载之间的差异。
不幸的是,专用电子书阅读器电子设备上几乎不存在.djvu支持。 尽管它不是手机和计算机上的内置功能,但一些应用程序支持查看和创建DjVu文件,包括djvulibre软件包, Evince文档查看器和Android上的FBReader 。
一种良好的格式,具有文件大小和效率方面的优势,但是由于支持有限,因此日常使用可能不实用。
顾名思义,漫画档案库是一种用于数字存储和消费漫画书和图画小说的格式。 它也非常适合您没有文字,想要或需要以图形方式查看的任何书籍。
当然,从本质上来说,这与PDF存在相同的问题,即图形无法为您的eReader屏幕动态地自动重新包装,但是格式本身是非常开放的,并且如果您有时间和耐心的话可以进行重组。
实际上,漫画档案只是一个包含一系列图像(分别为.cbz和.cbr)的.zip或.rar文件夹。 电子书阅读器将文件视为一本书,并按顺序显示图像,并即时对其进行解压缩。
作为存储和消费的一种格式,这是对漫画和扫描的传真进行数字存档的理想方法。 它只是压缩的图像目录,您甚至可以存储高质量的主版本作为主副本,并为设备创建质量较低的“便携式”版本。
电子书格式的难题可以归结为:有源格式,有消费格式(通常由电子阅读设备支持的格式决定),还有供应商或分销商为您提供的内容。
不幸的是,这些并不总是彼此一致的。
如果世界默认使用开放格式,那就太好了,因为开放格式易于转换,而且可以通过编程生成它们,从而根据您的需求为您提供最佳选择。 并非总是如此,因此由您决定哪种格式最适合您。
好消息是,尽管DRM(卖方对书进行数字限制),通常也可以选择转换。 处理您的内容,以所需的方式对其进行处理,以使其适合您,并始终保留最开放的格式作为备份。
翻译自: https://opensource.com/education/15/11/ebook-open-formats
ebook