|
看汉科技有限公司
前言
大部份的说中文的人包括以中文为母语的人,都有着同样的误解∶认为简体中文("sc")
和繁体中文("tc")这两种中文的字体是可以直接彼此对应,而两者的转换只要求简单代码配对。但繁简转译实际上需要花更多的工夫,可见我们在以下的解说。
背景
在1949年,成立中华人民共和国之前,只有一种中文字体,也就是繁体中文。而共产党政府在五十年代创设了新的中文字体,也就是简体中文。自此,简体中文就成为中华人民共和国的官方字体。在简体中文的字符之中,有一些是现有的字符,有一些是将难以牢记的繁体中文的字形简化而成的。根据1986年最后编辑的全面名单,简体中文的字符一共有2,244个。
此后,中华人民共和国及新加坡都采用了简体中文,但在香港、澳门、台湾以及大部份国外的中国社区,仍然继续采用繁体中文。
繁简转换的复杂性
大多数的简体中文字符与繁体中文都有很大分别,难以简体中文辨认出其繁体。 例如
SC-
TC
2. 在一些情况下,一个简体中文的字符会与两个或多个繁体中文相对应,例如
(简体中文),与「
」和「
」两字对应。有时,只有其中一个是正确的,有时任何这些皆可以是正确,视乎上下文的意思∶
| 简体中文 |
转译之繁体中文 |
意思 |
例子(繁体中文) |
fa1 |
 |
emit |

start off |
fa4 |
 |
hair |

hair |
gan1 |
 |
dry |

dry |
gan4 |
 |
trunk |

able, strong |
gan1 |
 |
intervene |

interfere with |
gan4 |
 |
tree trunk |

central figure |
mian4 |
 |
noodles |

noodle soup |
mian4 |
 |
face |

mask |
hou4 |
 |
after |

day after tomorrow |
hou4 |
 |
queen |

queen |
3. 内码∶简体中文的内码是GB2312-80, GBK,而繁体中文的内码是Big5 。而这两个标准并不兼容,因此会造成众多字符在繁简两边皆缺掉,例如∶
| 中文字 |
GB 内码 |
Big5 内码 |
 |
BFB4 |
ACDD |
 |
|
BA7E |
 |
BBA5 |
A4AC |
 |
C170 |
|
 |
BAF4 |
|
 |
|
B36E |
 |
BCFE |
A5F3 |
4. 词汇:∶简体中文主要但不一定依照中国大陆词汇的用法,但是繁体中文则会依从台湾和香港的词汇用法。
词汇:∶简体中文主要但不一定依照中国大陆词汇的用法,但是繁体中文则会依从台湾和香港的词汇用法。
我们的做法
中日韩字典之协会会员Jack Halpern 和Jouni Kerman的「中文转译的繁复性与圈套」"The
Pitfalls and Complexities of Chinese to Chinese Conversion",一文,提出他们对繁简中文转换哲学的远大洞察。
我们感谢他们的工作,并且和与他们有着同样的见解,所以我们尝试以他们的工作得着与我们软件相评估。
在Halpern 和Kerman一文的基础下,我们研究发现,由繁体与简体中文的语法相近度的关系,其代码与正确写法的转换规则,关键在于准确性水平99%以上
。当仔细地选择词位及语境的规则,这一准确性更能进一步提升至超过99.9%。
但是,这一附加的准确性带来巨大的费用,尤其是精细的语境规则将拖长繁简对译的时间。
为了在对译表现和准确性两者之间取得平衡,我们选择舍弃这语境和和词素的方法。这发展策略使得我们的即时翻译引擎有所改善,繁简中文的对译平台在商业市场的应用变得更老练,表现更佳。在Pentium
III/800中央处理器,我们翻译引擎的表现是每秒钟能转译超过 10,000个字符,而其平均准确度的水平也维持在超过95%
。
我们的做法
我们的中文转译引擎采用C++和Java,这两种软件也是支援当前生产不同的平台,由低阶的
Linux (low-end)和视窗工作站到高阶的Solaris 和AIX 服务器。以视窗应用为基础的COM版本也有提供,甚至是实验性的PHP
延伸版本也将同一次安装。这正确写法的转换规则将管理多义字的配对,而资料库的档案将会更新并替式词汇,这容让转译引擎可调适到不同的语境而无须要求任何的再版更新。
|