梦码输入法欢迎您! 设为主页
加入收藏
联系梦码
 

汉字输入法编码的单字重码与词语重码的关系

字词编码的相互关系


单字重码与词语重码,一起考虑,一般叫做综合重码。是输入法的一个比较重要的技术指标。
对于拼音输入法来说,单字重码基本不考虑。因为基本没有办法考虑。
那么,他们之间到底存在着怎样的关系呢?
单字重码与词语重码最重要的关系,就是一荣俱荣。特别对于形码来说,追求单字低重码,也追求词语低重码,尽管不能做到大词库低重码,小词库的低重码从没有被忽视。
这是大家都比较认同的了。接近了常识。
但是,事实上,其中还有更深层次的关系。
对于拼音输入法来说,前面已经说过,拼音输入法单字重码非常吓人,但是,词语重码却并不是太高,
而是比较实用的状态(与形码的要求相差甚远)。
但是,这个现象,却很少有人深入研究。
就是字词重码并不是绝对的象前面说的那样的简单的关系。

因为拼音输入法的拼音(按双拼的声韵两个编码来说明更加简明),基本是每个音上都有很多重码堆积,如果继续后续的两个编码,可以做到单字编码几乎不重码,当然,也或者后续的两个编码做得不好,比如,用纯笔画,那么,重码几乎是难以接受(形码的四码式,声、韵、笔画、笔画,取码)。事实上,这两种情况下,其词语编码的重码没有任何改变。
所以,单字重码,对词语的影响,在这里,是零影响。
当然这个例子是一个极端。但是,能说明一个简单的道理:
词语重码的情况,只与汉字单字编码的前两码的重码情况有关,而与后续编码无关。那么,单字重码好坏,并不直接影响词语编码的好坏。或者直接地说,单字前两码是词语重码的直接因素。
四字词语,只与第一码有关。
所以,在解决词语问题时,关键问题,是单字前两码编码的离散。从这个意义上,不难理解为什么用键数量多,对于大词库更实用(理论与实践,结论都是完全统一的)。
所以,这个观点必须深入理解和接受。
做前两码的离散,比全部单字容易多了(这个一定要是“打词为主”的输入法,否则,还是会有可能比较严重的遗留问题)。
即,高频的偏旁,必须使用,而且,尽量相互分散,即,尽量不在相同的键上堆积,这个梦码风行输入法做得太好了,因为是一键一偏旁(如果堆积,可能问题会非常严重,极端的例子就是两个高频偏旁在同一键位上。如果“口”和“人”两个字根都在一个键上,会是怎样的重码!)。到因此,风行输入法,比任何传统形码都有巨大的优势(这些都是做风行输入法的理论基础)。
风行输入法用到“笔画字根”,是一些非常高频参与组字(当然也组词)的部件。这个和前面说的差不多。是必须的,而且,应该尽量相互分散。风行输入法也做到几乎尽善尽美。
最后一件事,偏旁、笔画字根,在相同的键上,必须高度互补,而不是一般意义上的互补。
这个也有专门的论述。
结果,自然不言而喻。

做一个简单的结论:即使单字重码非常高,但是,词语的重码情况有可能非常好,关键是看前两码的分散效果是否做得好。

问题的另一个方面。
单字重码为零,词语重码是不是一定就好呢?

一般来说,人们都会这样来认为。
而事实是,完全不是这样的。
我举比较极端的例子来说明,有心人,可以悟到形码应该如何做得更好。
形码输入法都会用到字根“口”。
现在做个特别的假设,取消这个“口”字根。比如,用“冂一”两个字根来拆分。
结果,口为偏旁的字虽然多,但是,如果后两个字根被很好的分离,这个偏旁的字大约会在二、三百个,那么,在900个空间里,可以做到几乎很低的重码,或者可以确保高频字没有重码。但是,聪明人都能想到了,词语会是怎样的重码呢?
简直没有办法让任何人接受的重码。
这个例子,说明,使用高频偏旁(包括高频笔画字根)的重要性。这是问题最关键的地方。不能有任何疏忽。这点,梦码的风行输入法非常在意。即使使用了新的规则和其他相关技术,这一点也没有任何放松,反复做过N次对比统计。
相同的例子非常多,比如,高频的偏旁“氵”如果拆分成两个字根,“亻”如果取成两个笔画。这些都是形码绝对不可能接受的。

好。这个问题也说明完了。

单字完全不重码,词语也将可能重码到根本不能使用,词语重码比拼音多十倍,甚至还可能更多。

说明这些情况的同时,相信已经把这些复杂关系说明得够清楚了。

其实,风行输入法还有些事能再进一步说明。这里就省略了吧。

如果有任何疑问,可以继续讨论。



 

返回目录>>

 

Alexa世界网站排名在前2万名! PR值为5。主流搜索引擎排名居首。申请 链接互换 能显著提高您的网站在各大搜索引擎的排名名次。
双笔画输入法下载 智能笔画——梦幻组合②双笔输入法下载 智能拼音输入法下载 智能拼音输入法学习软件下载


查看留言来信选登Email:mengma3163.com