3. 英文的近似序列
为了让大家直观地感受这一系列过程是如何近似模拟一种语言的,我们构造了英文的一些典型近似序列,并给出如下。在所有情况下,我们假定“字母表”中有27个符号——26个字母和一个空格。
零阶近似(符号的选择相互独立,概率相等)。
XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD QPAAMKBZAACIBZLHJQD。一阶近似(符号的选择相互独立,但其概率与英文文本中相同)。
OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA TH EEI ALHENHTTPA OOBTTVA NAH BRL。二阶近似(英文中的二连字结构)。
ON IE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY ACHIN D ILONASIVE TUCOOWE AT TEASONARE FUSO TIZIN ANDY TOBE SEACE CTISBE。三阶近似(英文中的三连字结构)。
IN NO IST LAT WHEY CRATICT FROURE BIRS GROCID PONDENOME OF DEMONSTURES OF THE REPTAGIN IS REGOACTIONA OF CRE。一阶单词近似。我们接下来不再继续给出四连字结构,……,n连字结构,而是直接由三连字跳到以单词为单位,这样更容易一些,也更好一些。这里的单词选择是相互独立的,但具有适当的各自频率。
REPRESENTING AND SPEEDILY IS AN GOOD APT OR COME CAN DIFFERENT NATURAL HERE HE THE A IN CAME THE TOOF TO EXPERT GRAY COME TO FURNISHES THE LINE MESSAGE HAD BE THESE。二阶单词近似。单词转换概率与英文中一致,但没有包含其他结构。
THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE CHARACTER OF THIS POINT IS THEREFORE ANOTHER METHOD FOR THE LETTERS THAT THE TIME OF WHO EVER TOLD THE PROBLEM FOR AN UNEXPECTED。
在上面给出的各个步骤中,每前进一步,与普通英文文本的相似度都大幅增加。注意,这些示例中的良好结构范围并不仅限于在其构造时考虑的范围,而是其大约两倍。比如,在(3)中,该统计过程确保可以对两字母序列生成符合常理的文本,但这个例子中给出的四字母序列通常也可以组合成很好的句子。在(6)中,不需要绞尽脑汁进行什么不同寻常的构造过程,就可以将四个或更多个单词组成的序列放入句子中。其中有一个包括十个字音的特定序列“attack on English writer that the character of this"一点也不显得无厘头了。由此可以看出,用一个足够复杂的随机过程来表示一个离散信源,是可以让人满意的。
在构造前两个示例时,使用了一个随机数表和一个频率表(比如第2种情况)。因为有二连字频率、三连字频率和单词频率表可用,所以我们可以为第(3)、(4)、(5)种情景继续应用这一方法,不过,我们实际使用了一种更为简单的等价方法。比如,为了构造(3),我们可以随机翻开一本书,在该页上随机选择一个字母,并记下这个字母。然后翻到这本书的另一页,一直读下去,直到再次遇到前面记下的字母为止。然后记下跟在这个字母后面的字母。再翻到另一页,查找这个第二字母,并记下它后面的字母,以此类推。对(4)、(5)和(6)应用类似过程。进一步构造其他近似会是非常有趣的,但在下一阶段所涉及的劳动量是非常庞大的。