次: , 前: Spanning Hosts, 上: Following Links


4.2 ファイルの形式

ウェブから資料をダウンロードするとき,特定のファイル形式のみを回収する ように制限したいときもよくあります.例えば,gifをダウンロードする ことに興味がある場合,ポストスクリプトのドキュメントでの負荷は嬉しいは ずが無く,逆もまたそうです.

Wgetはこの問題を扱う二つのオプションを提案します.それぞれのオプション で,短い名前,長い名前,そして.wgetrc内の等価コマンドをリストアッ プします.

`-A acclist'
`--accept acclist'
`accept = acclist'
`--accept'オプションの引数は,Wgetが再帰的な回収の間にダウンロード するファイルの,接尾子やパターンのリストです.接尾子はファイルの終りの 部分で,“通常の”文字列,例えば`gif'や`.jpg'から成り立ちます. パターンマッチはシェルのワイルドカードを含んでいて,例えば, `books*'や`zelazny*196[0-9]*'です.

そして,`wget -A gif,jpg'を指定すると,Wgetは`gif'や `jpg'で終るファイルのみ,すなわちgifjpegをダウンロード します.一方,`wget -A "zelazny*196[0-9]*"'は,`zelazny'で始 まり,その中に1960から1969までの数字を含むファイルのみをダウンロードし ます.パターンマッチの動作方法についての記述はシェルのマニュアルを探し てください.

もちろん,任意の数の接尾子とパターンをカンマで分けたリストで組み合わせ ることや,`-A'の引数として与えることが可能です.


`-R rejlist'
`--reject rejlist'
`reject = rejlist'
`--reject'オプションは`--accept'と同じように動作しますが,そ の論理は否定です.Wgetは,リストの接尾子(やパターン)にマッチするもの 以外の,全てのファイルをダウンロードします.

そして,扱いにくいmpeg.auファイル以外の,ページ全体をダウン ロードしたい場合,`wget -R mpg,mpeg,au'を使用できます.同様に, `bjork'で始まるファイル以外全てをダウンロードするため,`wget -R "bjork*"'を使用してください.引用符はシェルによる展開を妨げるためで す.

`-A'と`-R'オプションは,回収するファイルでより良い調整を達成 するために組み合わせることができます.例えば,`wget -A "*zelazny*" -R .ps'は,名前の一部に`zelazny'を持ち,ポストスクリプ トではない全てのファイルをダウンロードします.

これら二つのオプションは,htmlファイルのダウンロードで,効果が無い ことに注意してください.Wgetは全てのhtmlをリンク先を知るためにロー ドする必要があります—再帰的な回収は,そうしなければ意味がありません.