笔趣阁

最新地址:www.22biqu.com
笔趣阁 > 津门密码1937:金融暗战 > 第85章 概率论与数理统计

第85章 概率论与数理统计

“有这样的频率分析?”池步洲大为震惊。

刘士侠这才回过味来,这不是21世纪,概率论与数理统计这一学科还是一个极为前沿的研究方向。

俄罗斯数学家柯尔莫哥洛夫虽然已於1933年发表了划时代的《概率论基本概念》,提出了用公式化的数学语言,来研究隨机现象的规律性原则。

但是,当前这些前沿科学尚未翻译传播至东亚。

中日两国科学界,完全没听说过“频率分析”这种新潮概念,更不要说这种概率统计在自然语言规律中的具体应用了,因此,池步洲一脸懵逼,实属正常。

更不要说齐普夫的词频分布定律此时尚未提出。

刘士侠嘆了口气:看来只有亲自给池步洲科普一下后世的理论概念,说明什么是字频统计了。

“在任何语言中,都有高频字词和低频字词……其中,只有极少数的字词会被经常使用,这些字词出现的频率特徵,在经过固定密钥加密后,其密文仍会符合这种统计学规律。”

“因此,我们只要找出这种规律,並进行重复验证,就可以根据频率对应关係,大致得出常用字词的密码本……”

刘士侠言简意賅,但其中蕴含的破译思路,在这个时代却堪称石破天惊。

闻言,池步洲的反应远比刘士侠预想的还要强烈。

他整个人都仿佛被无形的巨锤“砰”地砸中,张大了嘴巴,连手中的铅笔“啪嗒”一下掉在地上都没注意。

但刘士侠看到了他深邃的眼睛里迸发出灼热的光彩,是那种大受震撼、思路通达的光彩。

池步洲的声音因为激动而微微发颤:“刘先生,您刚才所说的……频率分析?”

“可是通过统计字词出现的概率来破解密码?此法……当真闻所未闻,却又……很可能找出『la』密码中,明文和密文的映射关係!”

“不过,日语中字词出现的频率,我们该如何获取?”

这次轮到刘士侠发愣了。

这个时代,还完全没有电子计算机,据说这玩意还是为了破解密码才发展起来的专用技术。

更不要说什么进行自然语言分析的“词频统计算法”和“逆向文档频率算法”了。

通过人工遍历日文文本、建立词汇-频次对照表?这真的可行吗?刘士侠陷入了沉思。

任何语言中,出现频率最高的词语,往往集中在日常交流或者基础表达中,比如问候、感谢、日用品等。

所以用日语教材中最常用的基础字词表来做分析並不可取,毕竟密文是书面表达,书面表达中字词的出现频率和日常生活区別很大。

记忆中,上辈子权威的日文词频统计语料库应该叫做bccwj,也就是现代日语书面表达均衡语料库,但这玩意应该是分析了报纸、小说、公文等亿点点样本库才得到的字词出现频率。

如果用人工去取代计算机做大样本统计,估计用时极长,比让猴子在键盘上跳舞,得到一篇网络小说所需要时间还长,甚至直到抗战结束,这个统计都做不完。

『记住本站最新地址 www.22biqu.com』
相邻小说: 天价悬赏:捕获顾少小逃妻 重生美利坚:我真没想当寡头 校草住隔壁:小呆萌,轻轻亲 我们单纯的小时光 我MC仙人,在低武世界成为道祖 重生校园:狂妄校花不好惹 武装哥布林,我有一座万物工坊 回档求生:我真不是大佬啊 东晋:附身先祖,从武王伐紂开始 从平王东迁开始建立千年世家