常時接続で自宅サーバを運営しよう
検索ロボット対処
インターネットには様々な検索システムがありますが、検索されたくない、または表に出したくないコンテンツを検索ロボットに伝える決まり事があります。
このページでは、WEBサーバ管理者が設置すべき検索関連指定ファイル、robots.txt について記述しています。
- robots.txt 設置ディレクトリ
robots.txt は http://ドメインネーム/robots.txt で見えるディレクトリに設置します。1ドメインにつき1ファイルのみ設置できます。
- FreeBSD 4.2 に付属されている apache 1.3 では、/usr/local/www/data/ になっています。
- このディレクトリは、/usr/local/etc/apache/httpd.conf の DocumentRoot で指定されています。
- robots.txt の書式
robots.txt の書式は以下の通りです。
例)ロボット foo に /bar 以下のディレクトリの参照を禁止する
User-agent: foo
Disallow: /bar
- foo を全ロボット指定にする場合は * を記述する。
- bar を複数指定する時は Disallow: を複数行書く。
- bar を全ディレクトリにする場合は / を記述する。
- bar はファイル単位で指定する事も可能(/bar/index.html)。
- ディレクトリに規制をかけない場合は Disallow: の後ろに何も記述しない。
robots.txt はWEBサーバとは全く関係が無い為、
<META name="ROBOTS" content="NOINDEX, NOFOLLOW">
と同レベルで、あくまでロボット側の良心に任せる類いです。
逆に誰でも robots.txt は参照可能である為、隠したいコンテンツを教えているともとれます。使い方には注意しましょう。
(raelian@din.or.jp)
Thank for you.戻る