Mastodon

漢字の階層構造

漢字の集合を \mathfrak{K},漢字を K,その構成素を eとする。 Kの冪集合 \mathcal{P}(K)において,包含関係による半順序関係  \subseteqを考える。

半順序関係 (K, \subseteq)を表すハッセ図において,ノード k \in \mathcal{P}(K)の濃度が | k |であるとき,ノード kは階層 |k|に布置される。

存在可能な構成素 \dot{e}を考える。 \forall\dot{e}\exists(K_n, K_m \in \mathfrak{K}) \ \dot{e} \in \mathcal{P}(K_n \cap K_m)を満たす \dot{e}存在可能な構成素という。存在可能な構成素の集合 \dot{E} \ni \dot{e}は,写像  f: \mathcal{P}(K) \mapsto \dot{E}で定義される。

漢字の帰属度について考える。漢字のある属性を \pi^{Ocp},親子関係が不明な漢字の対を \langle K_n, K_m \rangleとする。
例えば, \langle 羹, 恙 \rangleについて考えてみよう。
 \pi_{羊 \in 羹}^{Ocp} = 1/3, \pi_{羊 \in 恙}^{Ocp} = 1/2, wf_{hitsuji, atsumono}=1/3, wf_{hitsuji, tsutsuga}=1/2となる。

 

例えば  |k| = 2 である元  k の数は, {}_5 \mathrm{C}_2 - (3 + 1) = 6。下図では, k \not \in K を除いている。これがすなわち写像  f による効果である。

 

f:id:yudukikun5120:20210716222659p:plain

 

例えば, 驥 = 馬 + 冀(北 + 異(田 + 共))のように分解するのは可能としても, 驥 = 北馬 + 異(田 + 共)) のようには分解できないということだ。(筆順フォントは有料なのでご宥恕ください) 

でも,構成素ってどうやって決まるんだろう? 

『漢字の構造分析に関わる問題 : 漢字字体の構造分解とコード化に基づく計量的分析』によれば,漢字であることが構成素になる必要十分条件のようだ。もしそうだとすれば, Kanjiはどこまでを要素として定めるんだろう。「夂」なんて漢検辞書に載ってなかったぞ。