再帰的な回収で不必要なデータの回収になることを望む人はいません.ほとん どいつも,ダウンロードしたいものとWgetにたどらせたい特定のリンクのみを, ユーザは正しく覚えています.
例えば,`fly.srk.fer.hr'から音楽のアーカイブをダウンロードしたい 場合,アーカイブの曖昧な部分の参照から生じる,全てのホームページのダウ ンロードを望みません.
たどりたいリンクを正確に調整することを可能とする,いくつかのメカニズム がWgetにはあります.
Wgetの再帰的な回収は,通常はコマンドラインで指定されたものと異なるホス トを訪れることを拒否します.これはデフォルトで妥当です.そうしない場合, 全ての回収で,Wgetがgoogleの縮小版になり得ます.
しかし,異なるホストを訪れたり,ホストをまたぐことが役に立つオプ ションとなる時もあります.画像が異なるサーバから提供されているかもしれ ません.三つのサーバ間の内部リンクでページ構成されているサイトのミラー リングしているかもしれません.サーバが二つの等価な名前を持ち, HTMLページが両方を交替しながら参照しているかもしれません.
wget -rH -Dserver.com http://www.server.com/カンマで分けられたリスト,例えば`-Ddomain1.com,domain2.com'で,一 つ以上のアドレスを指定することが可能です.
wget -rH -Dfoo.edu --exclude-domains sunsite.foo.edu \ http://www.foo.edu/
ウェブから資料をダウンロードするとき,特定のファイル形式のみを回収する ように制限したいときもよくあります.例えば,GIFをダウンロードする ことに興味がある場合,ポストスクリプトのドキュメントでの負荷は嬉しいは ずが無く,逆もまたそうです.
Wgetはこの問題を扱う二つのオプションを提案します.それぞれのオプション で,短い名前,長い名前,そして`.wgetrc'内の等価コマンドをリストアッ プします.
`-A'と`-R'オプションは,回収するファイルでより良い調整を達成 するために組み合わせることができます.例えば,`wget -A "*zelazny*" -R .ps'は,名前の一部に`zelazny'を持ち,ポストスクリ プトではない全てのファイルをダウンロードします.
これら二つのオプションは,HTMLファイルのダウンロードで,効果が無 いことに注意してください.Wgetは全てのHTMLをリンク先を知るために ロードする必要があります---再帰的な回収は,そうしなければ意味がありま せん.
他のリンクを追う能力にもかかわらず,ファイルがあるディレクトリをもとに して回収するファイルの制限を行なうことが役に立つときも良くあります.こ れには多くの理由があります---ホームページは合理的なディレクトリ構造に 組織化されている可能性があります.また,いくつかのディレクトリ,例えば `/cgi-bin'や`/dev'といったディレクトリは,無用な情報を含んで いる可能性があります.
Wgetは,これらの要求を扱うために三つの異なるオプションを提案します.そ れぞれのオプションでは,短い名前,長い名前,そして`.wgetrc'内の等 価コマンドをリストアップしています.
wget -I /people,/cgi-bin http://host/people/bozo/
wget -r --no-parent http://somehost/~luzer/my-archive/これは,`/~his-girls-homepage/'や`/~luzer/all-my-mpegs/'へ参 照するものは参照するものをたどらないので安心できます.興味があるアーカ イブのみダウンロードされます.特に,それはより知的な方法でリダイレクト を処理するだけなので,`--no-parent'は`-I/~luzer/my-archive' に似ています.
`-L'が開始される時,相対リンクのみ回収されます.相対リンクは,こ こではウェブサーバのルートを参照しないものと定義します.例えば以下のリ ンクは相対的なものです.
<a href="foo.gif"> <a href="foo/bar.gif"> <a href="../foo/bar.gif">
以下のリンクは相対的ではありません.
<a href="/foo.gif"> <a href="/foo/bar.gif"> <a href="http://www.server.com/foo/bar.gif">
このオプションを使用することで,`-H'を用いない場合でも,再帰的な 回収でホストをまたがないことを保証します.単純な状況では,リンクを変換 すること無く"正しく動作する"ダウンロードも可能になります.
このオプションは,おそらくそんなには役に立たず,将来のリリースでは削除 されるかもしれません.
FTPの規則は,必要があって若干特殊になっています.HTMLドキュ メントのFTPリンクは参照の目的を含むことが多く,デフォルトでダウン ロードすることが不便なことがよくあります.
HTMLドキュメントからFTPへのリンクをたどらせるため, `--follow-ftp'オプションを指定する必要があります.そうすることで, FTPリンクは,`-H'の設定にかかわらずホストをまたぎます. FTPリンクがHTTPサーバと同じホストを示すことは滅多にないので, これは理にかなっています.同じ理由から,`-L'オプションはそのよう なダウンロードで効果がありません.一方,ドメインの受け入れ(`-D') と接尾子の規則(`-A'と`-R')は通常適用されます.
また,FTPディレクトリへのリンクをたどることは,再帰的回収以上では ないことに注意してください.
Go to the first, previous, next, last section, table of contents.