スクレイピングによる情報収集
BizAgentでWebサイトから情報を自動収集し、リスト化や分析を行う方法を解説します。
できること
- 複数サイトから企業情報を一括取得
- 競合サイトの情報を自動収集・比較
- 収集データの自動整形・リスト化
- タグ付け・分類の自動化
基本的な使い方
1. 単一ページの情報取得
このURL(https://example.com/company)から会社情報を取得して
2. 複数ページの一括取得
この企業一覧ページから、各企業の詳細ページにアクセスして情報を取得して
3. リスト化
取得した情報をCSVにまとめて
実践例
営業リード獲得
○○業界の企業リストを作りたい
以下の情報を取得して:
- 会社名
- 所在地
- 従業員数
- 事業内容
- 問い合わせ先
競合調査
競合3社のWebサイトから以下を調査して比較表を作って:
- サービス内容
- 料金プラン
- 導入事例数
- 特徴・強み
求人情報の収集
○○の求人サイトから、エンジニア職の求人を50件取得して
給与・勤務地・必須スキルをリスト化して
商品価格の比較
この商品の価格を複数のECサイトで調べて比較表を作って
情報整形・分析
データクリーニング
取得したデータの重複を削除して
電話番号のフォーマットを統一して
自動タグ付け
各企業に業種タグを自動で付けて
フィルタリング
従業員100名以上の企業だけ抽出して
スコアリング
自社の条件に合う企業順にスコアを付けて並べ替えて
技術選定ガイド
Playwrightの2つのアプローチ
| 方式 | メリット | デメリット |
|---|---|---|
| MCP版 | エラー時に柔軟に対応 | トークン消費が大きい |
| スクリプト版 | 安定・トークン不要 | 柔軟性が低い |
壁にぶつかったら
スクレイピングの敵はログイン機構とreCAPTCHA。
- まずPlaywrightで試す
- 突破できない場合→Chrome拡張機能に切り替え
おすすめのワークフロー
- 最初: Playwright MCPでURLを渡して情報取得
- 動いたら: 「これをスクリプト化して」でコード生成
- 以降: スクリプトで実行(トークン節約)
セレクター取得のコツ
Claude Code Chrome拡張機能を使うと、ページ上で直接セレクターを取得できる。
- Chromeでスクレイピングしたいページを開く
- Claude Code拡張機能を起動
- 「この情報を取得するスクリプトを作って」
- セレクターが自動で取得され、スクリプトが生成される
→ 一度できたスクリプトは「これの○○バージョン作って」で1時間半程度で別サイト対応可能
Tips
段階的に取得
大量のデータを一度に取得しようとすると時間がかかります。
まず10件だけ取得して確認させて
問題なければ残りを取得。
型化して定期実行
今の取得処理をコマンド化して
毎週月曜に実行できるようにして
取得できない場合
このサイトはスクレイピングできないので、
APIが提供されていないか調べて
注意事項
- 利用規約でスクレイピングが禁止されているサイトもあります
- 短時間に大量アクセスするとブロックされる可能性があります
- 個人情報の取り扱いには注意してください
トラブルシューティング
| 症状 | 対処法 |
|---|---|
| 取得できない | サイトの利用規約を確認、APIの有無を調査 |
| データが欠けている | 取得項目を明確に指定し直す |
| 文字化け | エンコーディングを指定して再取得 |
| ブロックされた | アクセス間隔を空けて再試行 |