はてなアンテナが infoseek で誤検出

[2004-04-04 20:45] 追記

この問題についてはこせきさん(id:koseki)のこせきの日記 - Infoseek アンテナ対策で最終的結論が出ています。

現在はてなアンテナで、Infoseek のフリースペース(*.hp.infoseek.co.jp)の広告が更新として誤検出されています。

[PR]キング・カズ直筆
サイン入レプリカユニ

てな感じになっているのはすべてそうだと見なして良いでしょう。

Infoseek の広告はバナー画像なので、本来ははてなアンテナで誤検出されることはなかったのですが、今日から infoseek のサーバ側で、IEMozilla などのグラフィカルなブラウザ以外からのアクセスのときは広告をテキストに置き換える設定に変わったようです。なお、ブラウザの判別はHTTP環境変数の UserAgent を見て行っている様子です。

これを回避するには、広告の文字列を無視するように設定すれば良いようです。はてなアンテナの「編集」の「詳細モード」で、該当するサイトの「更新無視文字列」に以下のように入力すれば良さそうです。

(\[PR\]|&\#63718;)(2004-04-02 16:50 追記:これだとうまくいかないようです)

もっと良い方法があればコメントください。

[2004-04-02 23:01] さらに追記。

試行錯誤の結果、「更新無視文字列」に以下のように入力しておくと誤検出の軽減効果があることが判明。

\[PR\]|63667|63671|63718

広告の一行目には必ず“[PR]”が含まれるので問題ないのですが、問題は2行目。w3m などで何度かリロードした結果、2行目には“”, “”, “”という謎の数値文字参照が含まれることが多いことがわかったので、これらの文字列を含む場合も無視するようにします。ただし今現在、2行目が「ヴィッセル神戸グッズ 」となる場合はこれらの文字列が含まれないので誤検出になります。

もっとも、サイトごとにチェック範囲を指定した方が確実ですが。