英文 繁体 简体 简体图片
| 主页 | 公司资料 | 产品与服务 | 诚征代理 | 客户支持 | 联系我们 | 职位空缺 | 朗读 |
汉网繁简通
 

看汉科技有限公司

前言

大部份的说中文的人包括以中文为母语的人,都有着同样的误解∶认为简体中文("sc") 和繁体中文("tc")这两种中文的字体是可以直接彼此对应,而两者的转换只要求简单代码配对。但繁简转译实际上需要花更多的工夫,可见我们在以下的解说。

背景

在1949年,成立中华人民共和国之前,只有一种中文字体,也就是繁体中文。而共产党政府在五十年代创设了新的中文字体,也就是简体中文。自此,简体中文就成为中华人民共和国的官方字体。在简体中文的字符之中,有一些是现有的字符,有一些是将难以牢记的繁体中文的字形简化而成的。根据1986年最后编辑的全面名单,简体中文的字符一共有2,244个。

此后,中华人民共和国及新加坡都采用了简体中文,但在香港、澳门、台湾以及大部份国外的中国社区,仍然继续采用繁体中文。

繁简转换的复杂性

大多数的简体中文字符与繁体中文都有很大分别,难以简体中文辨认出其繁体。 例如 SC- TC

2. 在一些情况下,一个简体中文的字符会与两个或多个繁体中文相对应,例如 (简体中文),与「 」和「 」两字对应。有时,只有其中一个是正确的,有时任何这些皆可以是正确,视乎上下文的意思∶

简体中文 转译之繁体中文 意思 例子(繁体中文)
fa1 emit start off
fa4 hair hair
gan1 dry dry
gan4 trunk able, strong
gan1 intervene interfere with
gan4 tree trunk central figure
mian4 noodles noodle soup
mian4 face mask
hou4 after day after tomorrow
hou4 queen queen

3. 内码∶简体中文的内码是GB2312-80, GBK,而繁体中文的内码是Big5 。而这两个标准并不兼容,因此会造成众多字符在繁简两边皆缺掉,例如∶

中文字 GB 内码 Big5 内码
BFB4 ACDD
  BA7E
BBA5 A4AC
C170  
BAF4  
  B36E
BCFE A5F3

4. 词汇:∶简体中文主要但不一定依照中国大陆词汇的用法,但是繁体中文则会依从台湾和香港的词汇用法。

词汇:∶简体中文主要但不一定依照中国大陆词汇的用法,但是繁体中文则会依从台湾和香港的词汇用法。

我们的做法

中日韩字典之协会会员Jack Halpern 和Jouni Kerman的「中文转译的繁复性与圈套」"The Pitfalls and Complexities of Chinese to Chinese Conversion",一文,提出他们对繁简中文转换哲学的远大洞察。 我们感谢他们的工作,并且和与他们有着同样的见解,所以我们尝试以他们的工作得着与我们软件相评估。

在Halpern 和Kerman一文的基础下,我们研究发现,由繁体与简体中文的语法相近度的关系,其代码与正确写法的转换规则,关键在于准确性水平99%以上 。当仔细地选择词位及语境的规则,这一准确性更能进一步提升至超过99.9%。
但是,这一附加的准确性带来巨大的费用,尤其是精细的语境规则将拖长繁简对译的时间。

为了在对译表现和准确性两者之间取得平衡,我们选择舍弃这语境和和词素的方法。这发展策略使得我们的即时翻译引擎有所改善,繁简中文的对译平台在商业市场的应用变得更老练,表现更佳。在Pentium III/800中央处理器,我们翻译引擎的表现是每秒钟能转译超过 10,000个字符,而其平均准确度的水平也维持在超过95% 。

我们的做法

我们的中文转译引擎采用C++和Java,这两种软件也是支援当前生产不同的平台,由低阶的 Linux (low-end)和视窗工作站到高阶的Solaris 和AIX 服务器。以视窗应用为基础的COM版本也有提供,甚至是实验性的PHP 延伸版本也将同一次安装。这正确写法的转换规则将管理多义字的配对,而资料库的档案将会更新并替式词汇,这容让转译引擎可调适到不同的语境而无须要求任何的再版更新。

 


 

s