senchou このページをアンテナに追加 RSSフィード

この日記は外部に公開されております。メンバーの公開、非公開は 参加者一覧ページ(参加者のみ閲覧可能)にて確認してください。グループモードにすると参加者のみに公開されます。

2007-06-26

スパム対策 03:25

打たれた後の対処について少し。


CRONで一時間に一度回して、余計なトラックバックを削除していくとか。

MTの機能を利用するにはPerlで作る必要がある


実装の為のヒント

http://del.icio.us/tbcenter/API

トラックバック - http://tbcenter.g.hatena.ne.jp/senchou/20070626

2007-06-25

とりあえず解析タグはだいたい削除したと思う 21:20

もし、解析タグがどこかに残ってたら削除の方向でお願いいたします。多分表示が軽くなります。

トラックバック - http://tbcenter.g.hatena.ne.jp/senchou/20070625

2007-06-23

2年に渡って世話になったphp-statsとお別れ。 22:14

最近、php-statsがだいぶ重量感を増してきたので、やむを得ず停止しました。

2,000,000ヒットを超えた辺りです。

データベースが苦しくなりましたかね、、、


とりあえずトラセン本体から解析用タグを削除。

その他のコンテンツからも順次削除していきます。


また、代替手段としてはXreaが吐いているApacheのログを解析していく方法を考えております。

現在、ローカルにダウンロードしてwebalizerで解析してアップロードして公開出来るように試しております。

標準の出力だと多少不都合があるので、少し調整中です。

ログは2007-06-12から再取得を開始しています。

リアルタイムでの解析が不可能になりますが、一応のデータは得られるのではないかと考えています。


PHP-STATS最終サマリー

ヒット数合計 2182911

訪問者数合計 580548

リンク経由の合計 47045

検索エンジン経由の合計 95357

本日のヒット数 641

本日の訪問者数 190

昨日のヒット数 2288

昨日の訪問者数 453

今月のヒット数 50774

今月の訪問者数 11736

先月のヒット数 74010

先月の訪問者数 15150

2007年のヒット数 385018

2007年の訪問者数 76897

サイト滞在時間 03m:12s

ページ滞在時間 00m:51s

日別ヒット数平均 3185.8

日別訪問者数平均 847.2

ページ閲覧数平均 3.8

統計開始日 2005年 8月 07日

最大ヒット日 (6191) 2006年 11月 30日

最小ヒット日 (3) 2005年 8月 07日

オンラインユーザー 0

最大同時オンラインユーザー数:

(06-11-13 の 20:59:32) 40

トラックバックURL変更 13:47

しました。

スパム対策開始の件を一応記述。

トラックバックポリシーへのリンクもつけました。

http://tbce.org/navi/archives/entry223.php

トラックバック - http://tbcenter.g.hatena.ne.jp/senchou/20070623

2007-06-22

簡易NGワードではとても止まらないので 08:55

とりあえず今日あたりにトラックバックURLを変更します。

その際に、「ルール」の改訂も告知します。

トラックバック - http://tbcenter.g.hatena.ne.jp/senchou/20070622

2007-06-16

例によって負荷ネタ 02:38

トラセン検索をrobots.txtで外して、一時期は無難な感じだった負荷ですが、またしても増加の傾向が出ています。

アクセス解析を覗いてみた感じだと、負荷がかかっているのは、2chwikiと、php-statsと、twatchと、tagf.cgi辺り。

tagf.cgiにロボットが迷い込んだかどうかは不明。robots.txtは適用されていると思うのだが、、、


んで、2chwikiの方は大事なコンテンツだからこのままとしても、

トラセン内部のアクセス解析については潮時かもしれないなぁ、という印象が無くも無い。

http://tbcenter.g.hatena.ne.jp/arikui/20070524/1180017142

で言われているように、元から過負荷が疑われている訳で。。。


色々と情報を得られる有力ツールなのだが、コレが負荷の原因だとすると、負荷をかけてまで設置しておくのは、、、


というわけで、代替手段を用意して、アクセス解析を停止出来るようにしていく所存。

トラックバック - http://tbcenter.g.hatena.ne.jp/senchou/20070616

2007-06-15

トラックバック削除専用スクリプト 21:29

を作っておこう、と考えた。

現在は手作業で削除だけしていて、

実態も把握しづらいし、証拠も残らない。

だから

ログを残すタイプのモノ。

そんなに苦労はしないと思うけど、さて、出来るのかどうか、、、

重複トラックバック拒否プラグインを改良 20:11

http://tbcenter.g.hatena.ne.jp/arikui/20070613

英語のスパムも多いし、日本語のモノで弾きたいものもあるので、


これまでは、最新5件のトラックバックの重複を検知し、同じURLのトラックバックを拒否する仕様でしたが、

ごにょごにょして、

NGワード的なモノを設定出来るように変更しました。

山のようにグローバル変数を使っている理由は、perlの関数の作り方がわからなかったからです。


plugin/reject-doubletrackback.pl

$tbce_ng_word    = 'foobar';
$tbce_ng_excerpt = '<a\s';
$tbce_ng_url   = 'hoge';

という感じで、変数に文字列をセットするとそのまま正規表現、マッチしたら403を返してトラックバックを拒否します。

この部分とは別に、最新5件の重複拒否はそのまま維持しています。

現在の仕様は、概要に<a という文字列があると拒否する一番シンプルなスパム拒否くらいです。

文字列に日本語を入れるとどうなるかは試していません。トラセンの文字コードはUTF-8(UTF-8N)です。

調べればスパム拒否の為のノウハウは他にも当然あると思われますので、今後とも何かしら対策をしていく所存です。

今後の展望

重複を避けるには、同時トラバをそもそも拒否すれば良いかもしれない。

一つのトラックバックが完了するまでは、とりあえずロックしちゃって、次のトラックバックを拒否、とか、そういう原始的な仕様が有効かもしれない。


また、スパム対策用のNGワードリストは外部ファイルを読み込むような仕様にした方が維持しやすいと思われる。

ただ、外部データを読み込む際のエラー処理とか、そういうのは、俺は全くわからないのでリスクを負う事になるかもしれない。

トラックバック - http://tbcenter.g.hatena.ne.jp/senchou/20070615