キーワードルール改定に関する意見-1

今週土曜に行われる「はてな公聴会」の議題は「はてなダイアリーキーワードのルール改定について」とのことで。

かつてははてなダイアリーキーワードとして登録できるのは名詞のみだったんですが、今はその制約は取り払われています。それで『暑い』とかの『喜ん』とかいうキーワードが登録されたんですが、「一般的すぎる形容詞は不要だ」とか「語幹はやり過ぎ」といった意見が出されて、削除するのしないのと大もめにもめて、はてなダイアリー評議会議案になってしまうほど議論が紛糾したようです。

結局いずれも削除ということになったようですが、似たようなキーワードはまだまだたくさんあります。それらすべてに評議会の結果を適用するわけにも行きませんが、かといって一つ一つを評議会にかけるのも手間です。

でまあ「結局のところ名詞以外のキーワードはあまりいらないんじゃないの?」というようなことになってルール改定をする運びになったらしく。今回はそのための公聴会なわけですね。

既にはてなダイアリー側からの改定案と、それについてのユーザーの意見がいくつか出ていて、キーワードルール改定に関する意見にまとまっています。システムの変更なども視野に入れて議論がなされていて、いくつか画期的なアイディアも出ている様子です。

以下は私の印象なのですが。

今回のルール改定の目的は「キーワードにまつわるトラブルを解消したい」ということなんでしょうね、きっと。

で、どういうときにトラブルは起きるかを考えると、「トラブルはキーワードが削除されようとするときに起きる」と言えます。登録された時点では、誰も問題にしていないわけですから、トラブルになりようがありません。誰かが削除しようとしたとたんに、そのキーワードを必要とする人との利害の対立が発生してトラブルとなります。

もちろん、そういった事態を未然に防ぐためにルールを制定するわけですが、上記2つの強調部を受け入れるならば、そのルールは「削除されることが予想されるキーワードは登録しない」というものだけで良いと思います。

もちろん、これは一番おおざっぱに考えたときの話ですから、ここから各論に入る必要があります。つまり「キーワードは何故削除されるのか」を考える必要があります。

一般に削除に回されがちなキーワードは以下のいずれかの要素を持っているようです。

  • ルール違反
  • 過去に削除されたことがある
  • 誤爆」が多い
  • 一般的過ぎる
  • 作成者がいわく付き
  • コメントを消したい
  • 思想的色合いが強い
  • 公序良俗に反するおそれがある
  • 公共性に欠ける

このうち「ルール違反」については今回の議案がそもそもルールを制定し直そうという話ですから、メタな言及になってしまうので議論する意味はありません。

さて、こうしてみると「品詞は本質的な問題ではない」ことに気づきます。

名詞以外の語が削除されやすいのは、それらが一般的である傾向があるからです。特に形容詞や副詞や接続詞は、基本的には使用されるシチュエーションがジャンルに依らないために、必然として一般的になってしまいます。

一般的過ぎる語句が削除されやすいのは「情報量が小さいから」です。

ここでいう情報量とは情報理論におけるそれなんですが、概念をきちんと理解するのは大変なのですごくおおざっぱにいうと、「目新しいかどうか」が情報量の基準です。「犬が人を噛んだニュース」と「人が犬を噛んだニュース」とで、どっちがニュースとして成り立つか、という例のアレです。ありふれてるものほど情報量は小さくなります。

現状のはてなのシステムでは情報量が小さい(≒ありふれてる)キーワードはノイズとなります。自分の日記に現れたリンクを追っても解説には自分の知っていることしか書いてない上に、「含む日記」を見ても脈絡がなく、「おとなり日記」にも特に関連がないものしか現れないとなれば、そんなキーワードはない方がましと考える人が多いのは当然でしょう。

さらに「はてなダイアリーのキーワードは文字列に過ぎない」点にも目を向ける必要があります。

現状のシステムでは登録されているものに単純一致する文字列のみキーワードとして機能します。それが故に起こるのが「誤爆」です。形態素解析すらしていないわけですし、はてなのシステムがキーワードを「言葉」として扱っていないのは最初に受け入れるべき大前提です。

その前提の上で、以上に挙げたような「削除されやすい要素」について考察していかないと、ものすごく不毛な議論になってしまう気がするのです。

明日に続く。