2024年10月15日火曜日

タイポグリセミアで遊ぶ

皆さん「タイポグリセミア」という概念をご存知だろうか.まずは,次の文章を読んでみてほしい.

みさなん こにんちは こんのぶうしょは タポイグセリミアと よばれる げしょんうの デモスントーレションを しめしてまいす.

どうだろうか,何が書かれているか,すんなり読めたかな?

タイポグリセミアとは

もとは英語を対象とした現象であり,日本語で分かりやすく示すためにひらがな・カタカナで示している点の読みにくさは割り引いて考えていただきたい.タイポグリセミアとは,単語の始まりと終わりの文字さえ固定しておけば,中間の文字がある程度入れ替わってもすんなりと読めてしまうという現象を表す用語である.

先の文例では「皆さんこんにちは,この文章はタイポグリセミアと呼ばれる現象のデモンストレーションを示しています」をひらがな・カタカナで表記し,何箇所か文字の順序を入れ替えた.

さて,この現象をテーマに卒論を書きたいという学生が現れ,タイポグリセミアの軽重で読み方がどう変わるかを調べたいと言い出した.なかなか面白い着眼点である.さすがうちの学生だ.

タイポグリセミア度の定義

ところでその軽重の度合いをどう定義するんだ?というところで議論になり,次の定式化を提案した.

簡単にいえば,タイポグリセミア文とオリジナル文のレーベンシュタイン距離(編集距離)を測り,それを文の長さで正規化したものを軽重のレベルを示す値とする,というものである.

レーベンシュタイン距離(編集距離)とは,文Aと文Bがあったときに,文Bに何回の編集操作を加えれば文Aに一致するかという回数で距離を定義するというものである.たとえば,「はんばいき」と「まんばけん」という言葉があったとすると,「まんばけん」ー(1.「ま」を「は」に入れ替え)→「はんばけん」ー(2.「け」を「い」に入れ替え)→「はんばいん」ー(3. 最後の「ん」を「き」に入れ替え)→「はんばいき」となるので,それらのレーベンシュタイン距離LDの値は3,すなわち,LD(はんばいき,まんばけん)=3,となる.

タイポグリセミア文を作るサービスはいくつか提案されている.たとえばこれ.「タイポグリセミア変換ジェネレーター」.ただし,その度合いは調整できない.まずは,元の文章とタイポグリセミア度を入力して相応のタイポグリセミア文を作るところから始めよう.これを作るのはそう難しくないぞ.

追記:

実際にプログラムを作って試してみたら,編集距離ではなくもう少し違う定義でやったほうがよいということに気づいた.次の定義でやるべきかな?

0 件のコメント:

コメントを投稿