WEBページをローカル保存する(1)
WEBページをローカルに保存する方法を模索中。
とりあえず、WGETについて調査したので、メモ
試してみた所でベストのオプション指定はこんな感じか
wget -np -p -k -nd -P C:\usr\bin\wget\200809202306 http://d.hatena.ne.jp/kahki/20080917
- オプション
- -np
上のURLをたどらない。親のディレクトリは対象外とする。
-
- -p
画像やそのほかの補助ファイルもダウンロードしてページを完全構築する
-
- -k
絶対URLを相対URLに変換する(ローカルマシンで閲覧可能にするため)
-
- -x
フォルダ階層も保存する
-
- -nd
フォルダを作らずに保存する(1つのフォルダ内に全てのファイルが保存される)
-
- -P フォルダパス
指定したフォルダパスにダウンロードしたファイルを保存する。指定したフォルダが存在しない場合は、作成してくれる
-
- -O file-name
file-nameという名前でファイルを保存する。ただし、-pオプションと併用した場合は、このfile-nameにすべてのファイルの内容が書き込まれてしまう
- メインのhtmlの命名規則
http://hoge.jp/123456
というURLだと、メインのhtmlファイル名は「123456」となる。
http://hoge.jp/
というURLだと、メインのhtmlファイル名は「index.html」となる。
http://hoge.jp/123456/aaa.html
というURLだと、メインのhtmlファイル名は「aaa.html」となる。
できれば、メインのhtmlファイルだけを残して、そのほかの付属ファイルはフォルダに収めたい(IEのページの保存みたいに)
こんな感じで
temp
|−−−20080901.html
|−−−20080901
|−−− aaa.gif
|−−− bbb.css
|−−− ・・・
WGETではこんなことはできないのだろうか・・・