|
(一)繁简转换的复杂性
GBK 码汉字虽然可以分为繁体和简体,但对于以简体字为基本环境的用户来说,还有许多复杂的问题,需要有更多的繁体字知识,才能更好地掌握。繁体与简体的对应关系,主要有三种情况:
1. 繁体与简体一一对应。如繁体字“ ”,只对应一个简体字“灯”。
2. 大多数的简体中文字符与繁体中文都有很大分别,难以简体中文辨认出其繁体。例如在一些情况下,一个简体中文的字符会与两个或多个繁体中文相对应。
查看繁体转换效果
| 简体中文 |
简体词组例子 |
Hanweb转换的
繁体词组 |
|
简体中文 |
简体词组例子 |
Hanweb转换的
繁体词组 |
 |
玻璃杯 |
 
|
|
 |
合家老少 |
  
|
| |
世界杯 |
 
|
|
|
合家安康 |
  
|
 |
辟邪 |

|
|
|
合府统请 |
  
|
| |
开辟 |

|
|
|
系列 |

|
 |
出发 |

|
|
|
关系 |

|
| |
头发 |

|
|
|
维系 |

|
 |
抵挡 |

|
|
 |
复命 |

|
| |
抵触 |

|
|
|
恢复 |

|
 |
浮雕 |

|
|
|
复印 |

|
| |
一箭双雕 |
  
|
|
 |
兄台 |

|
 |
吊机 |

|
|
|
讲台 |

|
| |
吊丧 |

|
|
|
台风 |
  |
 |
必须 |

|
|
|
梳妆台 |
 
|
| |
胡须 |

|
|
|
|
|
类似一个对应多个的简体字,有300多个。
3. 中国内地和香港,台湾的使用习惯不同,例如∶
| 简体词组例子 |
繁体词组 |
| 编程 |
    |
| 打印机 |
   |
| 达芬奇 |
   |
| 调制解调器 |
   |
| 胶卷 |
  |
| 服务员 |
   |
| 索尼 |
  |
| 支持 |
  |
| 硅谷 |
  |
| 圆珠笔 |
   |
(二)我们的做法
我们研究发现,由繁体与简体中文的语法相近度的关系,其代码与正确写法的转换规则,关键在于准确性水平99%以上
。当仔细地选择词位及语境的规则,这一准确性更能进一步提升至超过99.9%。
但是,这一附加的准确性带来巨大的费用,尤其是精细的语境规则将拖长繁简对译的时间。
为了在对译表现和准确性两者之间获取平衡,我们选择舍弃这语境和和词素的方法。这发展策略使得我们的即时翻译引擎有所优化,繁简中文的对译平台在商业市场的应用变得更老练,表现更佳。
在Pentium III/800中央处理器,我们翻译引擎的表现是每秒钟能转译超过
10,000个字符,而其平均准确度的水平也维持在超过95%
。
|