スクレイピングによる情報収集

BizAgentでWebサイトから情報を自動収集し、リスト化や分析を行う方法を解説します。

できること

複数サイトから企業情報を一括取得
競合サイトの情報を自動収集・比較
収集データの自動整形・リスト化
タグ付け・分類の自動化

基本的な使い方

1. 単一ページの情報取得

このURL（https://example.com/company）から会社情報を取得して

2. 複数ページの一括取得

この企業一覧ページから、各企業の詳細ページにアクセスして情報を取得して

3. リスト化

取得した情報をCSVにまとめて

実践例

営業リード獲得

○○業界の企業リストを作りたい
以下の情報を取得して：
- 会社名
- 所在地
- 従業員数
- 事業内容
- 問い合わせ先

競合調査

競合3社のWebサイトから以下を調査して比較表を作って：
- サービス内容
- 料金プラン
- 導入事例数
- 特徴・強み

求人情報の収集

○○の求人サイトから、エンジニア職の求人を50件取得して
給与・勤務地・必須スキルをリスト化して

商品価格の比較

この商品の価格を複数のECサイトで調べて比較表を作って

情報整形・分析

データクリーニング

取得したデータの重複を削除して
電話番号のフォーマットを統一して

自動タグ付け

各企業に業種タグを自動で付けて

フィルタリング

従業員100名以上の企業だけ抽出して

スコアリング

自社の条件に合う企業順にスコアを付けて並べ替えて

技術選定ガイド

Playwrightの2つのアプローチ

方式	メリット	デメリット
MCP版	エラー時に柔軟に対応	トークン消費が大きい
スクリプト版	安定・トークン不要	柔軟性が低い

壁にぶつかったら

スクレイピングの敵はログイン機構とreCAPTCHA。

まずPlaywrightで試す
突破できない場合→Chrome拡張機能に切り替え

セレクター取得のコツ

Claude Code Chrome拡張機能を使うと、ページ上で直接セレクターを取得できる。

Chromeでスクレイピングしたいページを開く
Claude Code拡張機能を起動
「この情報を取得するスクリプトを作って」
セレクターが自動で取得され、スクリプトが生成される

→ 一度できたスクリプトは「これの○○バージョン作って」で1時間半程度で別サイト対応可能

Tips

段階的に取得

大量のデータを一度に取得しようとすると時間がかかります。

まず10件だけ取得して確認させて

問題なければ残りを取得。

型化して定期実行

今の取得処理をコマンド化して
毎週月曜に実行できるようにして

取得できない場合

このサイトはスクレイピングできないので、
APIが提供されていないか調べて

注意事項

利用規約でスクレイピングが禁止されているサイトもあります
短時間に大量アクセスするとブロックされる可能性があります
個人情報の取り扱いには注意してください

トラブルシューティング

症状	対処法
取得できない	サイトの利用規約を確認、APIの有無を調査
データが欠けている	取得項目を明確に指定し直す
文字化け	エンコーディングを指定して再取得
ブロックされた	アクセス間隔を空けて再試行

できること​

基本的な使い方​

1. 単一ページの情報取得​

2. 複数ページの一括取得​

3. リスト化​

実践例​

営業リード獲得​

競合調査​

求人情報の収集​

商品価格の比較​

情報整形・分析​

データクリーニング​

自動タグ付け​

フィルタリング​

スコアリング​

技術選定ガイド​

Playwrightの2つのアプローチ​

壁にぶつかったら​

おすすめのワークフロー​

セレクター取得のコツ​

Tips​

段階的に取得​

型化して定期実行​

取得できない場合​

注意事項​

トラブルシューティング​