Weboxでオフライン世界旅行


現在、ラップトップ持参で旅行する人が増えています。主に写真の整理やホームページ作成が目的なのでしょうが、せっかくならそのPCにネットの情報を蓄えておきたいものです。その場合有効なのが、ウェブサイトをまるごとダウンロードするウェブ巡回ソフト。あらかじめ他の人の旅行記や、旅の掲示板などをダウンロードしておけば、ホテルでのんびり旅のプランを立てることができます。ここでは、代表的なソフトであるWeboxを使った活用法をご紹介します。


目次: Top | 地域別 | ジャンル別
地域: 旅行全般
ジャンル: 旅情報

旅行時期: 2009年
為替: N/A
作成日: 2010.4.20

目次


Webox概要

Webox(ウェボックス)は、ウェブページをPCに取り込んでオフラインで管理するソフトです。ウェブサイト全体をダウンロードすることもできます。同様のウェブ巡回ソフトに、巡集、GetHTMLWなどいくつかあります。私がWeboxを使う理由は単に、他のソフトをよく知らないからです。

この手のソフトは、旅行者にもってこいです、あらかじめ必要な旅行情報をラップトップにダウンロードしておけば、現地でインターネットを探す手間が省けます。ネットカフェのない街もあれば、ラップトップをつながせてもらえない場合もあるからです。お気に入りの旅行サイトを前もってダウンロードしておき、好きな時間に好きな場所で読むのです。この記事では、サイトの種類別に、Weboxの設定方法とコツを紹介していきます。

補足

何が取り込めるか

ほとんどのページはそのままダウンロードされますが、例外的に取り込めないページやファイルがあります。

  • HTML以外の単体ファイル
    • Word、Excel、PDF、JPG他、リンクさえ張られていれば問題なくダウンロードできます。
  • ウェブページの構成要素
    • ウェブページに埋め込まれたファイル - CSSファイル、スクリプトファイル、画像、動画、フラッシュなどの外部ファイルは基本的に取り込まれます。
    • ただ、IFRAMEが無効になる仕様なようで、Gmapや一部広告画像はダウンロードされません。
    • JavaScriptを使って、ページデザインや画像をクライアント側で変更してしまうページはうまく対応できません。基本的に、WeboxはJavascriptを処理しません。
  • オフラインだと機能しないもの
    • Youtubeの埋め込みオブジェクトは、ネットワークにつながっていないと再生できません。サンプル画像は取り込まれていますが、動画はまだ外部サーバーにあるからです。
    • Google広告など、クライアント側で動的に挿入されるものは、オフライン時に表示されません。必要なJavascriptは取り込み済みなのですが、サーバーにアクセスできないと機能しないのです。最初からページに埋め込まれた広告は問題ありません。
  • リンクが辿れないもの
    • 人の介入が前提のものは、Weboxなどの巡回ソフトでは処理しない傾向があります。例えばフォームのように、リストから何かを選んでOKボタンを押すようなもの。このようなサイトデザインの場合、これ以上先に巡回されません。
    • JavaScriptが動的に作るリンクは辿れません。逆にA REFタグでリンク先が明示されていれば、それがパラメターを含んだ動的なページであっても、たどっていきます。
 

使い方

この記事では、サイトを丸ごと取り込むことを前提に話を進めます。

基本設定

サイト全体をダウンロードする場合、設定は基本的に次の3点。

  1. アドレス (例: http://siteA.com/user1/index.htm)
    このページを基点としてウェブの巡回を始めます。まず、アドレス欄にURLを入れて、そのページをWeboxに表示させます。
  2. リンクを巡る際の部分URL (例: http://siteA.com/user1/)
    (メニュー: 操作 -> 取り込み -> 表示中のサイト取り込み)
    またはアドレス欄の3つ横のアイコンをクリックすると、巡回を始める前にダウンロード設定の画面が出てきます(左下の画像)。ここで部分URLを指定し、そのディレクトリ傘下にあるページだけを取り込むようにします。ページの構成要素である画像ファイルやCSSファイルなどは、どこにあってもかまいません。
  3. リンクを巡る回数 (例: Level 5)
    (メニュー: #2に同じ)
    X回リンクを辿ったところで巡回を終了するように設定します。ほとんどのサイトの場合、余裕を持って大きな数字を指定しておいても問題ありません。 一度訪れたページは取り込まれません。最後に[OK]を押してサイトの取り込みを開始します。

その他の設定

その他、次のような設定も必要に応じて使います。

  • サイトダウンロードにおけるディレイ
    (メニュー: 設定 -> 取り込み設定 -> ネットワーク -> 負荷軽減用の設定)
    相手サーバーに負荷をかけないように、次のページをダウンロードするまでの待ち時間を設定できます。他の巡回ツールが半強制的に待ち時間を設定しているのに対し、Weboxでは待ち時間なしにも設定できます。
  • スレッド同時チェック数 (メニュー: 設定 -> 取り込み設定 -> ネットワーク)
    この数を増やせば、多少処理時間が短縮されますが、Weboxが不安定になります。
  • 取り込み拒否 (メニュー: 設定 -> 取り込み設定 -> 取り込み拒否)
    パターンにマッチしたページやファイルを取り込まないようにします。パターン表記には正規表現が使われます。(右上の画像)

閲覧

ダウンロードしたページはネットに接続しなくても閲覧できます。取り込まれたサイトはディスクにファイルとして保存され、IEやFirefoxなど一般のブラウザーで読むことができます。ただ、一部の拡張子のないファイルは、Webox内臓のブラウザーでしか表示できません。


個人サイト

個人や会社が作ったウェブサイトをまるごと取り込むのが目的です。主に、無料ホスティング・サービスを使ったサイトを想定しています。個人サイトの場合、動的コンテンツが少なく、構造もシンプルなので、Webox的には組しやすいところです。

サイトの構造

サイトのトップページは、 sekakoh.web.fc2.com など、ディレクトリー名よりもサブドメイン名でユーザーを区別したものが主流です。独自ドメインを持っているサイトもあります。基本的に、これらのサーバー名やディレクトリー名の下にすべてのコンテンツが置かれています。リンクの深さはサイトによりますが、2-5くらいでしょうか。この世界攻略ジャーナルの場合、トップページ -> メニューページ -> 各記事の三層構造になっているので、リンクの深さは2になります。個人サイトは基本的には静的ファイルで構成されているので、リンクを多めに設定しても悪影響はありません。

サイトにブログへのリンクを張っている人もいますが、ブログは別サーバーになるので同時にダウンロードすることはできません。

Webox の設定

起点URL サイトのトップページ(例: www.abcdef.com)または特定トピックのページ
部分URL 起点URLと同じことが多い。
リ ンクの深さ サイトの構造による 2-5くらい。たいてい増やしても問題ない。
取り込み拒否 特になし

実験

いくつかサイトをピックアップして実験してみました。すべて大きな問題はなし。

  • 世界攻略ジャーナル
    アドレス欄: http://sekakoh.web.fc2.com/
    部分URL: http://sekakoh.web.fc2.com/
    リンクを辿る回数: 2
    結果: 51ページと800個の画像ファイル、計14.6MBを13分でダウンロード。
  • とある旅行会社のサイト
    アドレス欄: http://www.?????.co.jp/
    部分URL: http://www.?????.co.jp/
    リンクを辿る回数: 3
    結果: 1107ページと1230個の画像ファイルページ、計53.7MBを19分でダウンロード。
  • 地球の歩き方 国別基本情報
    アドレス欄: http://www.arukikata.co.jp/country/
    部分URL: http://www.arukikata.co.jp/country/
    リンクを辿る回数: 3 (多分2で十分)
    結果: 920ページと1000個の画像ファイルページ、計64.8MBを17分でダウンロード。
  • @NIFTY デイリーポータル (暇つぶし用の読み物)
    アドレス欄: http://portal.nifty.com/backnumber/index.htm
    部分URL: http://portal.nifty.com/2008/03/ (2008年3月分のバックナンバーのみ取り込み)
    リンクを辿る回数: 10
    結果: 232ページと2397個の画像ファイルページ、計269MBを26分でダウンロード。部分URLを/2009/にすれば2009年のバックナンバーすべて、さらに2009を取れば過去数年分のバックナンバーすべてが取り込めます。動画ファイルが不要ならば、WMAファイルを取り込み拒否してください。

ローカルコピー

  • ローカルにコピーされるファイルの日付は、サーバー上のものと基本的に同じです。
  • ファイル名が省略されているページはindex.htmlに置き換えられます。 よって、普通のサイトならすべてのページに明示的なファイル名と拡張子がつくので、一般のブラウザーでも閲覧できます。



フォートラベル

4TRAVELに投稿されている旅行記をまとめてダウンロードするのが目的です。 旅行記の投稿サイトはいくつかありますが、フォートラベルが一番メジャーだと思われます。まぐまぐやMSN Travelにも、全く同じものがフィードされています。

サイトの構造

URLはこのようになっています。

ある旅行者のメインページ http://4travel.jp/traveler/ユーザーID/
ある旅行者の旅行記一覧 (Top) http://4travel.jp/traveler/ユーザーID/album/
ある旅行者の旅行記一覧
(リスト表示)
http://4travel.jp/traveler/ユーザーID/album/?
view_mode=list&dmos=&wide=&middle=&sort=
ある旅行者の旅行記一覧
2ページ目
http://4travel.jp/traveler/ユーザーID/album/?
PN=2&view_mode=&dmos=&wide=&middle=&sort=
特定の旅行記 http://4travel.jp/traveler/ユーザーID/album/旅行記ID/
ある旅行者の口コミ一覧 http://4travel.jp/traveler/ユーザーID/tips/

Webox の設定

特定のお気に入り旅行者の旅行記すべてをダウンロードします。

起点URL http://4travel.jp/traveler/ユーザーID/album/
部分URL http://4travel.jp/traveler/ユーザーID/album/
リ ンクの深さ 3 (旅行記一覧1ページ目 --> 旅行記一覧の他のページ -->個別の旅行記)
取り込み拒否 特になし

実験

自分のサイトで試してみます。アクセス数がおかしくなるので実験しないでください。

  • 世界攻略者さんの旅行ブログ
    アドレス欄: http://4travel.jp/traveler/sekai_koryaku/album/
    部分URL: http://4travel.jp/traveler/sekai_koryaku/album/
    リンクを辿る回数: 2
    結果: 47個の旅行記と726個の画像ファイルを10分でダウンロード。同時に、アクセスカウンターが50ほど増えました。
  • 4TRAVELとWeboxの組み合わせには、一つ大きな問題があります。フォートラベルのウェブページは少し凝ったデザインになっていて、旅行記内の画像ファイルは次のように処理されます。
    1. トップの画像以外は解像度を低くした画像ファイルがダウンロードされます。
    2. ページを一通り読み込んだ後、、JavaScriptを使って各画像をオリジナルの高解像度のファイルに置き換えていきます。

    Weboxはステップ#1しか処理しないので、ダウンロードされたページの写真は低解像度のままです。4TRAVELの旅行記の多くは、文章より写真中心なので、これは大きな問題です。Weboxではなく、ブラウザーの「ページを保存」機能を使えば、この問題を回避できますが、1ページずつ自分で保存しなくてはいけません。巡集はJavaScript対応との話ですので、試してみる価値はあります。

ローカルコピー

ローカルディスクには、次のように保存されます。サーバーはすべて - http://4travel.jp/

ある旅行者の旅行記一覧 (Top) /traveler/ユーザーID/album/index.html
ある旅行者の旅行記一覧
2ページ目
/traveler/ユーザーID/album.7PN=2
%26view_mode=%26dmos=%26wide=%26middle=%26sort=
URLの「?」マークが「7」に 置換されています
特定の旅行記 /traveler/ユーザーID/album/旅行記ID/index.html
  • 旅行記一覧の2ページ以降は、拡張子のないファイルとして保存されるため、一般のブラウザーからは読めません。それを回避する方法はなくはないですが、少々面倒です。よって、ダウンロードされたファイルは、Webox組み込みのブラウザーで閲覧することになります。

さらに分析

  • 口コミ情報も、次のURLをアドレス欄・部分URLに指定すれば一括ダウンロードできるはずです。
    • http://4travel.jp/traveler/ユーザーID/tips/
  • 特定の観光地の旅行記一覧は、次のURLからアクセスできます。
    • http://4travel.jp/overseas/area/地域/国/都市名/travelogue/
      例えばネパール・ヒマラヤの場合、http://4travel.jp/overseas/area/asia/nepal/himalaya/travelogue/
    これらも一括でダウンロードできたらいいのですが、サイトの構造上、Weboxには無理そうです。

補足

 

したらば掲示板

私設BBSの開設が容易なライブドアしたらば掲示板。 スレッドの集合体である板を丸ごとダウンロードします。

サイトの構造

URLはこのようになっています。URLのサーバー部分はすべてhttp://jbbs.livedoor.jp/。

掲示板トップページ/カテゴリー名/掲示板番号/
スレッド一覧/bbs/subject.cgi/カテゴリー名/掲示板番号/
スレッドの最新の50レスを表示 /bbs/read.cgi/カテゴリー名/掲示板番号/スレッド番号/l50 (小文字のL)
スレッドのレスを全部表示 /bbs/read.cgi/カテゴリー名/掲示板番号/スレッド番号/
新着レスの表示 /bbs/read.cgi/カテゴリー名/掲示板番号/スレッド番号/レス番号n-
最初の100個のレスを表示 /bbs/read.cgi/カテゴリー名/掲示板番号/スレッド番号/-100
前100/次100レスの表示 /bbs/read.cgi/カテゴリー名/掲示板番号/スレッド番号/レス番号-レス番号
個別のレスを表示 /bbs/read.cgi/カテゴリー名/掲示板番号/スレッド番号/レス番号

Webox の設定

ダウンロードしたいのは「スレッド一覧」と「スレッドのレスを全部表示」のページのみ。その他は、内容がダブっているので取り込み拒否設定で無視することにします。ただ、サイトのデザイン上、「スレッド一覧」と「スレッドのレスを全部表示」の間に、必ず「スレッドの最新の50レスを表示」が入ります。ですので、これも取り込むようにします。

起点URLhttp://jbbs.livedoor.jp/bbs/subject.cgi/カテゴリー名/掲示板番号/
部分URLhttp://jbbs.livedoor.jp/bbs/read.cgi/カテゴリー名/ 掲示板番号/スレッド番号/
リンクの深さ 2 (スレッド一 覧 --> スレッドの最新の50レス --> スレッドの全部のレス)
取り込み拒否 /\/[n\-\d]+$/
この設定で、必要なページだけ取り込みます。

実験

2つの掲示板を試しました。

  • 旅行人 遊星旅社 海外現地情報板
    アドレス欄: http://jbbs.livedoor.jp/bbs/subject.cgi/travel/7695/
    部分URL: http://jbbs.livedoor.jp/bbs/read.cgi/travel/7695/
    リンクを辿る回数: 2
    取り込み拒否: /\/[n\-\d]+$/
    結果: 206個のスレッドを5分でダウンロード。
  • タイちゃんねる BBS
    アドレス欄: http://jbbs.livedoor.jp/bbs/subject.cgi/travel/3341/
    部分URL: http://jbbs.livedoor.jp/bbs/read.cgi/travel/3341/
    リンクを辿る回数: 2
    取り込み拒否: /\/[n\-\d]+$/
    結果: 294個のスレッドを11分でダウンロード。

ローカルコピー

ローカルディスクには、次のように保存されます。

スレッド一覧 /bbs/subject.cgi/カテゴリー名/掲示板番号/index.html
スレッドの最新の50レス /bbs/read.cgi/カテゴリー名/掲示板番号/スレッド番号/l50
スレッドのレス全部 /bbs/read.cgi/カテゴリー名/掲示板番号/スレッド番号/index.html

これは2つのことを意味しています。

  • スレッド毎に2つのページが取り込まれるので、少なくとも(スレッドの数 x 2)個のページがダウンロードされる。
  • l50は拡張子のないページなので、一般のブラウザーではなく、Webox組み込みのブラウザーでしか閲覧できません。これを回避するには、スレッド一覧のindex.htmlを開けて、中のl50をすべてindex.htmlに置き換えるという方法があります。そうすれば、IEやFirefoxなどのブラウザーでも読めます。

さらに分析

  • ページの最後にアマゾンの広告画像が出ます。これはそれほど邪魔ではありませんが、もしダウンロードしたくない場合は、取り込み拒否に /amazon/ や /\.(jpg|JPG|gif|GIF)$/などを加えることで対処できます。
  • 過去ログ倉庫にあるスレッドは、次のように設定すれば取り込めます。
    • 起点URL: /bbs/storage.cgi/カテゴリー名/掲示板番号/
    • 部分URL: /カテゴリー名/掲示板番号/storage/

補足

2ch 掲示板

ご存知2ちゃんねる掲示板。スレッドの集合体である板を丸ごとダウンロードします。2ちゃんねるは、したらばと同じスタイルの掲示板ですが、2つのアクセス規制がかかっているので対処が必要です。

  • 一定時間にたくさんアクセスすると、そのIPからのアクセスを受け付けなくなる。
  • DAT落ちした過去スレは、専用ブラウザを使わないと見られない。

サイトの構造

URLはこのようになっています。ディレクトリー名が少し違う以外は、したらば掲示板と同じです。

URLのサーバー部分はhttp://サーバー名.2ch.net/。 板によってサーバー名が異なります。

掲示板トップページ/掲示板名/
スレッド一覧/掲示板名/subback.html
スレッドの最新の50レスを表示 /test/read.cgi/掲示板名/スレッド番号/l50 (小文字のL)
スレッドのレスを全部表示 /test/read.cgi/掲示板名/スレッド番号/
新着レスの表示 /test/read.cgi/掲示板名/スレッド番号/レス番号n-
最初の100個のレスを表示 /test/read.cgi/掲示板名/スレッド番号/-100
前100/次100レスの表示 /test/read.cgi/掲示板名/スレッド番号/レス番号-レス番号
個別のレスを表示 /test/read.cgi/掲示板名/スレッド番号/レス番号

Webox の設定

したらば同様、ダウンロードしたいのは「スレッド一覧」と「スレッドのレスを全部表示」のページのみ。

起点URL http://サーバー名.2ch.net/掲示板名/subback.html
部分URL http://サーバー名.2ch.net/test/read.cgi/掲示板名/
リ ンクの深さ 2 (スレッド一 覧 --> スレッドの最初の50レス --> スレッドの全部のレス)
取り込み拒否 /\/[n\-\d]+$/
負荷軽減の設定 ダウンロード間隔:0 サイトダウンロードにおけるディレイ:5000
  • 上記の設定では、アクティ ブなスレッドしかダウンロードされません。過去のものに関しては、後ほど説明します。
  • アクセス規制にひっかからないように、負荷軽減用の設定が必要です。[サイトダウンロードにおけるディレイ]が10秒(10000ms)の場合、ページをダウンロードしてから、次のページを取り込むまで10秒待つという設定です。何秒が最適かは正直わかりません。10秒なら確実ですが、全体をダウンロードするのに時間がかかります。短すぎると規制にひっかかり、しばらく同じIPアドレスからのアクセスが拒否されます。

実験

2つの掲示板を試しました。

  • 外国語(英語除く)@2ch掲示板
    アドレス欄: http://academy6.2ch.net/gogaku/subback.html
    部分URL: http://academy6.2ch.net/test/read.cgi/gogaku/
    リンクを辿る回数: 2
    取り込み拒否: /\/[n\-\d]+$/
    サイトダウンロードにおけるディレイ: 5000ms (5秒)
    結果: 413個のスレッドを1時間50分でダウンロード。
  • 海外旅行@2ch掲示板
    アドレス欄: http://love6.2ch.net/oversea/subback.html
    部分URL: http://love6.2ch.net/test/read.cgi/oversea/
    リンクを辿る回数: 2
    取り込み拒否: /\/[n\-\d]+$/
    サイトダウンロードにおけるディレイ: 3000ms (3秒)
    結果: 631個のスレッドを2時間でダウンロード。

ローカルコピー

ローカルディスクには、次のように保存されます。

スレッド一覧 /gogaku/subback.html
スレッドの最新の50レス /test/read.cgi/gogaku/スレッド番号/l50
スレッドのレス全部 /test/read.cgi/gogaku/スレッド番号/index.html

したらば同様、スレッド毎に2つのページが取り込まれます。また、subback.htmlを開けて、l50をindex.htmlに置換すれば一般のブラウザーからも読むことができます。

さらに分析 - 過去のスレッド

  • 2ちゃんねるの過去スレを取得する方法はいくつかあります。
    1. 専用ブラウザーを使い、購読料を払って見る方法。これが標準的な方法です。
    2. 有志が特定トピックのスレッドをコピーして、他のサーバーに保管、公開しているのを見る。これらのサイトは法的にはグレイですが、利益目的ではないので見逃されています。
    3. 2ちゃんねるの過去スレッドを勝手に公開してアクセスを稼いでいるサイト。これは一番便利ですが、いつなくなるかわかりません。それぞれの方法について、Weboxを絡めながら見ていきます。
  • 専用ブラウザー
    2ちゃんねるでDAT落ちしたスレッド、つまり1000レス越えたものやアクセスがなくてスレッド一覧から消えてしまったものは、専用ブラウザー(2ちゃんねるブラウザ)を使って閲覧、ダウンロードできます。その場合、購読料が年間33ドルかかります。専用ブラウザーの中には、「禁断の壷」などプロキシー型のものもあるので、Weboxと組み合わせて使うこともできます。
    • メニュー: 設定 -> 取り込み設定 -> プロキシ設定

ここからは、海外旅行板のインド統一スレッドを例にお話します。このスレッドはすでにパート46を越えています。専用ブラウザを使えば、パート1から45までの過去の分も読むことができます。通常、最新スレッドには、過去スレへのリンク一覧が載っています。それを起点にして全スレッドすべてを取り込みたいところですが、1つ問題があります。過去スレッドが保存されているサーバーは、いつも同じではないのです。インド統一スレッドの場合、

    • パート4 - パート10:travel.2ch.net
    • パート11 - パート29: travel2.2ch.net
    • パート30以降: love6.2ch.net

    のようにバラバラです。Weboxでは部分URLをひとつしか設定できないので、何回かに分けてダウンロードする必要があります。それなら、ブラウザーで1ページづつ保存するか、他の巡回ソフトを当たってみたほうがよさそうです。

  • 有志の保存サイト
    これはボランティアの世界なので、ダウンロードしたいスレッドが保存されているとは限りません。例えばインド統一スレッドの場合、パート24までは次のサイトに保管されています。 このようなサイトの場合、サーバー名不一致の問題はないので、Weboxが有効に使えます。
  • 過去スレ検索サイト

これは本家のサービスと違い、無料です。代表的なのはunkarでしょうか。

    ここから「インド・印度」で検索すると14件ひっかかります。あくまでスレッド・タイトルでの検索なので、同じシリーズのスレッドでも、タイトル名に一貫性がないと一覧に出てきません。これは大きな欠点ですが、利点もあります。例えば「タイ語」で検索すると、タイ語総合スレッド以外の関連スレも出てきます。 これらを一気にダウンロードするには、

    • 起点URL: 検索結果のページ
    • 部分URL: http://www.unkar.org/
    • リンクの深さ: 1

と設定すればOKです。

 


補足

ブログ

現在、旅日記の主流はブログです。お気に入りの旅行ブログなどを取り込むのが目的です。

過去の記事をすべて取り込むことは可能ですが、ブログサービスによってその難易度は様々です。具体的には、日記一覧のメニューがよくまとまっているブログは、ダウンロードしやすく、閲覧もしやすい。また、1ページにたくさんの日記エントリーが載っていると、リンクを辿る回数が減るので、これも助かります。そういう観点から言えば、はてなダイアリーやYahoo!ブログは扱いやすく、アメーバは最悪です(設定による)。

サイトの構造

サイトの構造は、ブログサービス毎に違います。アメブロの場合こうなっています。

あるブログのトップページ http://ameblo.jp/ユーザーID/
カテゴリー別のページ http://ameblo.jp/ユーザーID/theme-カテゴリーID.html
http://ameblo.jp/ユーザーID/theme2-カテゴリーID.html (2ページ目)
月別アーカイブ http://ameblo.jp/ユーザーID/archive1-年月.html
http://ameblo.jp/ユーザーID/archive2-年月.html (2ページ目)
日別アーカイブ http://ameblo.jp/ユーザーID/day-年月日.html
http://ameblo.jp/ユーザーID/day2-年月日.html (2ページ目)
最近の日記リスト http://ameblo.jp/ユーザーID/entrylist.html
http://ameblo.jp/ユーザーID/entrylist-2.html (2ページ目)
個別の日記エントリー http://ameblo.jp/ユーザーID/entry-日記ID.html

Webox の設定

特定ユーザーのすべてのブログエントリーをダウンロードします。

起点URL 日記一覧ページ または個人ブログのトップページ
部分URL 個人ブログのトップページ
リ ンクの深さ 最低3 (起点URL --> 月別アーカイブ・カテゴリー --> 日別アーカイブ・カテゴリー2ページ目、3ページ目....--> 個別の日記エントリー)。 すべての日記がダウンロードできる数に設定する。一番エントリーが多い日やカテゴリーのページ数がボトルネックになることが多い。
取り込み拒否 多分必要なし。

実験

はてなダイアリーのとある個人グログをダウンロードしてみました。

  • はてなダイアリー
    アドレス欄: http://d.hatena.ne.jp/User ID/archive/ (日記一覧ページ)
    部分URL:http://d.hatena.ne.jp/User ID/
    リンクを辿る回数: 2
    取り込み拒否: /amazon/
    結果: 746件の日記と2028個の画像ファイル、計130MBを90分でダウンロード。

ローカルコピー

  • 基本的に、同じファイル名で保存されます。もし、ファイル名が省略されていればindex.htmlという名が与えられます。拡張子のないファイルに自動的に拡張子がつくことはありません。
  • 今回実験したはてなダイアリーの場合、URLがディレクトリー名で終わっていても最後にスラッシュ(/)が付いていません。ですので最初のアクセスでは、ファイルとしてもディレクトリーとしても解釈できます。これは少々問題で、Weboxがそれをディレクトリーと認識する前にファイルとして処理してしまった場合、そのディレクトリー以下のファイルが取り込めなくなります。これを回避するために、起点URLは/archive ではなく、/archive/としなければなりません。
  • はてなの場合、大半の日記が拡張子のないファイルとして扱われるため、ダウンロードしたものはWebox組み込みのブラウザーでしか読むことができません。一方、アメーバ・ブログはすべてのファイルに.htmlがついているので一般的なブラウザーからも直接ブラウズできます。このあたりは各ブログサービスのデザインによって異なります。
 

メルマガ (まぐまぐ)

ブログが普及する以前は、メールマガジンから情報発信する人が大勢いました。当時書かれたものの中には、今でも役立つものが少なくありません。 大手メールマガジンのまぐまぐでは、 大半の作者がバックナンバーを公開しています。これを利用して一括ダウンロードを試みます。

サイトの構造

最新記事 http://archive.mag2.com/メルマガID/index.html
個別の記事 http://archive.mag2.com/メ ルマガID/配信日時を基にしたファイル名.html
記事履歴のメニュー ページの右側に20件の記事へのリンクが張られていて、[前へ]ボタンを押すと、
http://archive.mag2.com/メルマガID/index.html?start=XX
XXに、20,40...というふうにパラメターを変えて、20個づつ古い記事に移動していく。これがメニュー代わりに使える。[最後へ]ボタンを押すと、一番古い記事に飛び、そのパラメターから全体の記事数が推測できる。

Webox の設定

特定メルマガの過去の配信すべてをダウンロードします。

起点URL http://archive.mag2.com/メルマガID/index.html
部分URL http://archive.mag2.com/メルマガID/
リンクの深さ 最低、(記事の数/20)/2 + 1
mag2は重複ダウンロードが多いので、あまり「リンクの深さ」の数を増やしたくない。
取り込み拒否 多分必要なし。

実験

とあるメルマガをダウンロードしてみました。

  • メルマガ A
    アドレス欄: http://archive.mag2.com/メルマガID/index.html
    部分URL: http://archive.mag2.com/メルマガID/
    リンクを辿る回数: 12
    結果: 433個の記事、計14.5MBを11分でダウンロード。

ローカルコピー

  • 記事履歴のメニューには拡張子がつかないので、一般のブラウザーからは読めません。Webox内臓のブラウザーを使うか、記事履歴のメニューを経由せずに、1つずつ次の記事にアクセスする必要があります。

補足

その他

ここまでで紹介した以外のトピックについて見ていきます。

CURL

CURLは、URLを指定してファイルをダウンロードするコマンドライン・ツールです。ファイル名に正規表現が使えるため、一風変わった使い方ができます。以前、インドの鉄道を研究していた時、オンラインの時刻表をダウンロードする必要がありました。その時刻表は、一つのファイルではなく、ページ毎にPDF化されているため、100を超えるファイルすべてを取り込まなければなりません。サイトのデザイン上、Weboxを使ってダウンロードすることはできません。幸い、ファイル名は予測可能なので、CURLを使いまとめて落とすことができます。

ファイル名は、路線番号(1-97)にオプションでAが付くシンプルなものです(例、5.pdf, 92A.pdf)。よって次のコマンドを使って一括ダウンロードできます。

  • curl.exe -O "http://www.indianrailways.gov.in/TAG/Pdf/[1-97]{,A}.pdf 

このコマンドは、1.pdf, 1A.pdf, 2.pdf, 2A.pdfと順番にダウンロードしていきます。存在しないファイルをダウンロードしようとした場合、2KB程度のエラーファイルが作成されます。これらはコマンド終了後、小さいファイルを削除することでお掃除できます。

その他の掲示板

2chやしたらばなどのスレッドフロー型以外の掲示板を見てみます。

  • 地球の歩き方 旅のQ&A掲示板
    特定の国に関するQ&Aのダウンロードを試みたのですが、ちょっと敷居が高いです。例えばインドでQ&Aを絞ってみると1036件ひっかかります。これらを全部見るには[次へ]をクリックして30件づつアクセスする必要があります。だいたい11-35リンク進めばすべて回れる計算ですが、他にも問題があります。URL上、他の国のQ&Aと区別できないので、リンクを辿っているうちにインド以外のQ&Aもアクセスしてしまい、収拾がつかなくなります。また、各Q&Aのページでも、個別の返答のページと、すべての返答表示のページが区別できないので、重複したページをたくさんダウンロードすることになります。
  • Lonely Planet Thorn Tree Forum
    ロンリープラネットの掲示板です。ここでも、特定の国に関するのスレッドをダウンロードしてみます。例えばミャンマーで絞ると、三万近いスレッドと20万件以上の返事が見つかります。歩き方の掲示板同様、数が多すぎて手に負えません。そこで、検索してトピックを絞ることにします。「akihabara」と検索すると164件ひっかかりました。結果の表示件数を25 -> 100に増やすと2ページで収まります。これらを全部取り込みたいところですが、ひとつ問題があります。検索結果のページはsearch.lonelyplanet.com、各スレッドのページはwww.lonelyplenet.comのサーバーにあります。部分URLで指定できるのはひとつのサーバーのみ。当然スレッドの内容を優先させるので、結果、最初の100件しか取り込めないことになります。

Mixi

Weboxはミクシーと連携したダウンロードも行えるようです。試していないので、詳しいことはわかりません。

補足

最後に

まだまだ不明な点たくさんありますが、今回はこのへんで。

 

 
Copyright (C) 2009 Sekakoh. All Rights Reserved.
inserted by FC2 system