岸辺は数冊の辞書を見比べた。どの辞書も、「あ行」から「さ行」までの分量が多く、「た行」がはじまるのは、全体の半分以上を過ぎたあたりだ。
「逆に、『や行』『ら行』『わ行』あたりは、費やしているページが少ないでしょう。これは、和語が少ないからです」三浦しをん『舟を編む』
いきなりの引用から始めました。こんにちは(ケ)です。みなさまもお手近の辞書で確認してみてください。「し」のページがまた大量なんですよねコレ。
アからンまでたくさんあるカナですが「よく使われるカナ」「あまり使われないカナ」があることは、みなさまよくご承知のことでしょう。しりとりで、ンで終わる言葉を使っちゃダメというルールも、ンがよく使われるカナだからこそ効果的なのでしょうね。
ということで今回は、クロスワードを解くときお世話になるカナ、そのカナの使われる頻度についてのお話です。どのカナが多く使われてどれが少ないのか実際に調べてみます。
使用するデータは「ぶたさん」氏によるクロスワード辞書「豚辞書」14版。クロスワードに使われるような言葉を20万語以上も集めたテキストファイルです。このデータを独力でまとめた「ぶたさん」氏の偉業に頭が下がりますが、それをフリーウェアとして公開し、そしていまだに入手可能というのはクロスワード史に残るすごいことなんじゃないかと思います(Vectorで12版がダウンロードできます。https://www.vector.co.jp/soft/dos/game/se018509.html)。
カナの使用頻度の計算、以前にも豚辞書を使ってやったことがあるんですが、当時はawkやsedなどのテキスト処理ツールを使ってちまちまこつこつ調べた覚えがあります。いま確認したらもう20年あまり前。その手のツールの使い方はすっかり忘れちゃいました。
というわけで今回はてっとりばやくMicrosoft OfficeのExcelを使って調べました。昔のExcelは65536行までしか使えなかったので豚辞書をまるごと読みこむなんて無理でしたが今のExcelだとへっちゃら。時代は変わるものです。
どんな関数をどのように使えば文字列中に含まれるカナの数を調べられるのかを考えるのは、ちょっとパズル的でおもしろい問題ですね。私は独力で考えるのを早々にあきらめて先人の知恵を検索しましたが、なるほどこう組み合わせればいいのか、と感心しました。勉強になります。
まず、豚辞書中の単語、最初の1文字で多い順に並べると、次のような結果になります。
シカコアキオジイハサセフタチトヒクミウスマテナホエケソニリツダヨゴユヤモブガドバワロメデゲレムギラボノヘネビグゼベパザプルゾヌポピペズヂヅ
シで始まる言葉が約1万4千語、カが約1万2千語、最初の8文字「シカコアキオジイ」だけで、全体の3分の1ほどの単語数になります。ア行からサ行までの単語数を合計してみると、総単語数の半分強になっています。まさに冒頭の引用通りの結果になっているわけです。五十音表ってよく使うカナを前のほうに持ってきてあるのかな。
クロスワードの編集で、いくつかの問題で使用した単語をまとめてリストにするのはよくある作業のひとつ。そのときにいつも実感するのですが「カで始まる言葉」「シで始まる言葉」はよく盤面に入るのですよね。クロスワードの答え盤面を見てみると、カやシで始まる単語が1つや2つは入ってる問題が多いと思います。おためしあれ。
上で示したのは語頭にくるカナ別の単語数でしたが、次は単語中のカナの使用頻度をみてみましょう。1単語中に同じカナが複数個含まれていれば、それぞれ1回として数えるわけです。
その結果は、次のとおり。
ンウイシクカツキヨリコジユトータセチヤサオアスラガマミケノルドテハエナロダブモフバソメニレワヒギゴホビゲムグネボザズデゾベゼプヘパヅポヌヲピペヂ
さっきはなかったンが登場。ンで始まる単語は豚辞書に収録されていないので当然ですね。
ウ・ク・ツ・ヨなどのカナは順位が急上昇。これらは熟語で多用されるカナという理由があるのかな。ナンクロ(ナンバークロスワード)を解いているとき、このランキングの上位にあるカナが決まると、盤面のマスが一気にうまるという経験、覚えのあるかたも多いんじゃないでしょうか。
さてこうなると、語尾にくるカナの多い少ないも気になってきませんですかね。しりとりでキモになる語尾のカナ、その順位は以下のとおり。
ンウイクキリシツートルヤカチスミジラドコタマケヨメロエギノムサユビズゴレナブワバグネプアゲテオフモダガセヒハニザソボデベゼヌパホポピゾペヲヅヘヂ
と結果だけ示して今回はここまで。
次回はこのカナの使用頻度や、語頭や語尾のカナ、それらについてもうちょっとつっこんでみる予定です。