次: , 前: Types of Files, 上: Following Links


4.3 ディレクトリベースの制限

他のリンクを追う能力にもかかわらず,ファイルがあるディレクトリをもとに して回収するファイルの制限を行なうことが役に立つときも良くあります.こ れには多くの理由があります—ホームページは合理的なディレクトリ構造に組 織化されている可能性があります.また,いくつかのディレクトリ,例えば /cgi-bin/devといったディレクトリは,無用な情報を含んで いる可能性があります.

Wgetは,これらの要求を扱うために三つの異なるオプションを提案します.そ れぞれのオプションでは,短い名前,長い名前,そして.wgetrc内の等 価コマンドをリストアップしています.

`-I list'
`--include list'
`include_directories = list'
`-I'オプションは,カンマで分けられた回収に含めるディレクトリのリス トを受け入れます.他のあらゆるディレクトリは単に無視されます.ディレク トリは絶対パスです.

そのため,`http://host/people/bozo/'から/peopleディレクトリ のbozoの仲間へのリンクと/cgi-binの偽りのスクリプトのみだどってダ ウンロードしたい場合,以下のように指定できます.

          wget -I /people,/cgi-bin http://host/people/bozo/
     


`-X list'
`--exclude list'
`exclude_directories = list'
`-X'オプションは`-I'の正反対です—これは,ダウンロードから 除外するディレクトリのリストです.例えば,Wgetで/cgi-bin ディレクトリからのものをダウンロードしたくない場合,コマンドラインで `-X /cgi-bin'を指定してください.

`-A'/`-R'と同様に,これら二つのオプションは,サブディレクトリ のダウンロードでより良く調整するため,組み合わせることが可能です.例え ば,/pub/worthless以外の/pub階層からの全てをロードしたい 場合,`-I/pub -X/pub/worthless'を指定してください.


`-np'
`--no-parent'
`no_parent = on'
最も単純な,ディレクトリを制限するためによく利用される便利な方法は,開 始より上の(above)階層を参照するリンクの回収を許可しないことで,す なわち,親のディレクトリ等への上昇を許可しないことです.

`--no-parent'オプション(短いものは`-np')はこの状況で役に立ち ます.それを利用することで,今いる階層から出ないことを保証します.Wget を以下のようにして呼び出したとします.

          wget -r --no-parent http://somehost/~luzer/my-archive/
     

これは,/~his-girls-homepage//~luzer/all-my-mpegs/へ参 照するものは参照するものをたどらないので安心できます.興味があるアーカ イブのみダウンロードされます.特に,それはより知的な方法でリダイレクト を処理するだけなので,`--no-parent'は`-I/~luzer/my-archive' に似ています.