椎字五行属H么?
我来说两句,首先我要纠正一点常识性错误,“字形”和“字象”不是一个概念!在汉字信息处理中,对文字进行分形归类是“字形”分析;而“字象”则是对文字的统计分析。比如对“汉字的形状”或者“字的笔画数”这一类问题,属于字形分析;而对“字常见布局”、“字字段长度均衡度”这类问题的研究则是字象分析。
其次我们讨论下这个问题,汉字有形音义三要素,其中“形”是指汉字字形的结构——这个汉字是怎么写的,它是怎么构成的(即字源演变的结果);而“字象”主要是研究这些构成元素的分布情况——“字象”是通过统计方法对大量文本中形音义均相同的汉字进行定量分析得出的。也就是说从“形”的角度看每个字都是独一无二的,但是从“字象”角度看许多字其实是由同一偏旁部首或独体字拼合而成的。因此从“形”无法识别的字往往可以通过“字象”识别并切分出准确的中文意符。 这里要稍微引入另一个概念,叫“字形编码”。我们知道计算机只能识别数字和字母,所以汉字必须转换为数字才能存储和传输。转换的方法就是“字形编码”——把汉字写成数字的形式。目前较常用的字形编码有GB2312-80汉字编码、GBK汉字编码和Unicode汉字编码等。其中前者是两个字节的编码,后者是四个字节的编码。
现在再回过头来谈谈你的问题,你提到“二字的五行”。这里的五行其实指的应该是“字形五行的意思”。关于汉字字形五行的定义可以参照GB2312-80标准。而通过计算汉字的字形五行,可以用程序判断出该汉字对应的五行属性。 但是这样的方法确实存在缺陷,因为汉字字形五行与汉字本身意义并没有必然的联系!有很多汉字虽然属同一五行,但是其表达的意义却完全不同。如“美”属火,而“乐”也属火;又如“朱”属火,而“静”也属火……因此根据汉字字形五行给名字打分并不能完全准确表示名字的属性。
当然如果仅仅满足于用电脑编程实现自动打分的话这些问题都可以忽略不计了。但问题是你并不是只想满足于这种简单算法,而是想要知道为什么“土”字旁的字大多属土……等等类似问题。那么下面就可以引入“字象”的概念来解释这种现象了。 所谓字象就是在大量的带有相似字形元素的文本数据中,对元素的频率、字段长度等指标进行统计分析后得到的一个词的“形状特征向量”。利用字象可以进行词性标注、错别字识别、语素切割等诸多语言处理任务。
在具体实现时,可以根据需要选取其中一个字象模型完成分析。由于本文主要关注于汉字五行属性的分析,故而采用“一字一符”的字象模型进行实现在此就不多说了。有兴趣的读者可以参考维基百科的相关条目。最后需要提一下的是,使用字象模型进行分析需要预先构建字象词典。