「mozc-ut」の公開終了とその理由について

ライブラリとライセンスの関係性 / 2023-01-23T00:00:00.000Z

この記事では「mozc-ut」の公開終了の顛末とその影響について簡単に説明していこうかと思います。読まれた方が理解した気になれることを重視して執筆されていること、及び私の知見不足によって正確ではない部分がありますが、この点をご了承の上読み進めていただければ幸いです。

結論

  1. 日本語入力ソフトウェア「mozc」の辞書が公開終了となった
  2. ライセンスに対して疑義を呈したツイートが原因?

日本語入力

私たちが普段コンピュータに向かって日本語を入力する際は、ローマ字などで入力しそれを「変換」しています。この行為は何気ない行為なので気にしたことが無い方も多いと思いますが、この「変換」で何が行われているかを考えてみると、平仮名しかないものからどうにかして適切な漢字交じりのテキストとするという行為が行われていることが分かるかと思います。そのためのソフトウェアには様々なものがあり、有名なものですとATOKやMS-IMEが知られています。ちなみに多くのソフトウェアでは1つの機能となっていますが、この過程ではまず初めにローマ字から平仮名などに変えた後「変換」を行っています。前者のソフトウェアを特にインプットメソッド、後者のソフトウェアを変換ソフトウェアと区切って考えることがあります。

これらのソフトウェアにはそれぞれ特徴がありますが、その多くは「辞書」と呼ばれる物を持っています。例えば「りんご」を「林檎」や「🍎」に変換するためには、それらの単語が「りんご」という読み方を持つものであると知っている必要があります。これを機械的に行うためのものです。

mozc

mozcというのはGoogleが開発した「Google 日本語入力」のオープンソース版です。基本的にGoogle日本語入力に搭載されている機能の多くが搭載されているものの、一部の機能が削減されている他、以下の理由で辞書が搭載されていません。

Google 日本語入力の辞書は、Web 上のデータなどから作成されており、膨大な量の単語のみならず、Google の検索のランキング・インデクシングアルゴリズムを反映するような単語の頻度情報も含まれております。Google 日本語入力で使用している辞書をオープンソース化するということは、辞書及び頻度情報を、日本語入力以外の目的で使われることに許諾することを意味し、これは Google の意図するところではありません。以上のような理由により、オープンソース版の辞書は異なるものを使用しています。

Google 日本語入力チーム「Google 日本語入力がオープンソースになりました

すなわち「林檎」は「りんご」であると知らない状態ではあるものの、それを知っていれば速やかに変換を行うことが出来るといったものです。mozc本体にも「りんご」を「林檎」と変換できる程度の辞書は搭載されていますが、であるからといって多くの場面において快適な日本語変換が出来るわけではありません。これを補うための方法として様々なものがありますが、その1つに辞書を補填してあげることがあります。辞書があるから適切な変換が出来るのであれば、使える辞書を用意してそれを使わせるというのは自然な考えであると言えるでしょう。

mozc-ut

辞書の補填方法として各々のユーザーがよく使う変換を自分のマシンにのみ登録する形の「ユーザー辞書」が知られています。これは使ったことのある人は多いのでイメージが付きやすいと思いますが、その人にとって最適である一方でそれによって得られる結果は他の人に配布する意義は微妙です。他の補填方法としてはmozcがデフォルトで用意している辞書のソースとは別のところから辞書を作成し、これを各ユーザーに配布するといったものがあります。辞書を作成し維持することは大変なことですが、適切なソースから生成された辞書を用いることで変換をより快適にすることが出来ます。

mozcに対応した辞書は複数ありますが、その1つに「Mozc UT Dictionary(mozc-ut)」が存在します。これは

という多様なソースを基に生成された辞書をmozcで使用できるように変換しまとめた物です。これを導入することでmozcの変換精度を上げ、より快適な日本語変換体験を得ることが出来るようになります。

ライセンス

しかしながらこのmozc-utは単一の辞書として配布されてはいたもののライセンスが明示されていませんでした。上に挙げさせていただいたソースはそれぞれライセンスが異なっており、例えば日本語版ウィキペディアはCC BY-SA 3.0、郵便番号データについては事実上のパブリックドメインといった感じです。このようなデータを二次配布する際にはライセンスが明瞭であることによって配布する際に安心して使うことが出来ます。そのためライセンスについて厳しい姿勢を取っている人はmozc-utを使うことを避ける人もいます。

これについて「Ut系辞書はライセンス的に微妙なのでまともな方法がほしい」であったり「それで法的な部分が怖いので、開発のかなり初期段階でut系は無理」とツイートした方がいらっしゃいました。その結果mozc-utの作者はmozc-utを公開終了とした上で、パッケージ配布サイトのメンテナの方へ削除するように要請するという事態になってしまいました。

この影響としてmozc-utの更新が(結果として一時的なものとなりましたが)途絶えてしまい、Re-UTmozcdict-extの開発が開始されるという影響がでました。

関連リンク

最後に

この記事は技術的・法的な話を分かりやすくし、多くの方々に今回の公開終了に伴って起こった事柄について基本的な情報を与えることを企図して執筆しました。可能な限り要素を省かないようにして執筆させていただきましたが、正確性を若干欠いてしまっている点がありますのでご注意ください。また事実のみを可能な限り記すようにしたので、記事としての面白みはないかもしれません。

個人的には「火元」とされている方のmozc-utに対する懸念点は極めて尤もなもので、どうしてあそこまで当事者以外に叩かれないといけないのかと疑問に思っています。作者が明示的にライセンスを示していないことで二次配布する際に問題が生じるということを指摘した(参考)だけでどうしてこうなってしまうのかな…。

救いとしては1月12日の公開終了からわずか一日で、ソース元ごとに分割された辞書が作者のGitHubアカウント上で公開されたことでしょうか。今後も便利な辞書として使われかつ進化していくと嬉しいなと(外野ですが)思っています。

Writer

Osumi Akari