BugTrack/104

Last-modified: 2008-08-02 (土) 10:57:12

スクレイピング処理の自己診断機能

  • ページ: BugTrack
  • 投稿者: syo68k
  • 優先順位: 重要
  • 状態: 提案
  • カテゴリー: その他
  • 投稿日: 2008-06-06 (金) 10:48:56
  • バージョン:

メッセージ

スクレイピング処理が正常に行われているかどうかを自己診断する。
エラーを出して通知する条件については要検討。ダイアログを出し、報告や解析キー情報更新を促すなどする。

有力な条件

  • htmlの取得が正常にでき、なおかつ未読既読含め発言の取得がないか、あるいは存在するはずの発言数より不足すること。

何らかのオプションを指定したりすることで、以下の情報を書き出せるようにしておくとデバッグが楽になりそう。

  1. 取得した生HTML
  2. 書き込みと思われる文字列を単純検索した結果
  3. 検索結果のカウント数
  4. スクレイピングにより書き込みを切り出した結果
  5. 切り出し結果のカウント数
  6. 両者のカウント数が整合しているかどうか
  7. 取得エラーを起こした解析キーがある場合は、どのキーでエラーを起こしたか