Skip to main content

スクレイピングによる情報収集

BizAgentでWebサイトから情報を自動収集し、リスト化や分析を行う方法を解説します。


できること

  • 複数サイトから企業情報を一括取得
  • 競合サイトの情報を自動収集・比較
  • 収集データの自動整形・リスト化
  • タグ付け・分類の自動化

基本的な使い方

1. 単一ページの情報取得

このURL(https://example.com/company)から会社情報を取得して

2. 複数ページの一括取得

この企業一覧ページから、各企業の詳細ページにアクセスして情報を取得して

3. リスト化

取得した情報をCSVにまとめて

実践例

営業リード獲得

○○業界の企業リストを作りたい
以下の情報を取得して:
- 会社名
- 所在地
- 従業員数
- 事業内容
- 問い合わせ先

競合調査

競合3社のWebサイトから以下を調査して比較表を作って:
- サービス内容
- 料金プラン
- 導入事例数
- 特徴・強み

求人情報の収集

○○の求人サイトから、エンジニア職の求人を50件取得して
給与・勤務地・必須スキルをリスト化して

商品価格の比較

この商品の価格を複数のECサイトで調べて比較表を作って

情報整形・分析

データクリーニング

取得したデータの重複を削除して
電話番号のフォーマットを統一して

自動タグ付け

各企業に業種タグを自動で付けて

フィルタリング

従業員100名以上の企業だけ抽出して

スコアリング

自社の条件に合う企業順にスコアを付けて並べ替えて

技術選定ガイド

Playwrightの2つのアプローチ

方式メリットデメリット
MCP版エラー時に柔軟に対応トークン消費が大きい
スクリプト版安定・トークン不要柔軟性が低い

壁にぶつかったら

スクレイピングの敵はログイン機構reCAPTCHA

  1. まずPlaywrightで試す
  2. 突破できない場合→Chrome拡張機能に切り替え

おすすめのワークフロー

  1. 最初: Playwright MCPでURLを渡して情報取得
  2. 動いたら: 「これをスクリプト化して」でコード生成
  3. 以降: スクリプトで実行(トークン節約)

セレクター取得のコツ

Claude Code Chrome拡張機能を使うと、ページ上で直接セレクターを取得できる。

  1. Chromeでスクレイピングしたいページを開く
  2. Claude Code拡張機能を起動
  3. 「この情報を取得するスクリプトを作って」
  4. セレクターが自動で取得され、スクリプトが生成される

→ 一度できたスクリプトは「これの○○バージョン作って」で1時間半程度で別サイト対応可能


Tips

段階的に取得

大量のデータを一度に取得しようとすると時間がかかります。

まず10件だけ取得して確認させて

問題なければ残りを取得。

型化して定期実行

今の取得処理をコマンド化して
毎週月曜に実行できるようにして

取得できない場合

このサイトはスクレイピングできないので、
APIが提供されていないか調べて

注意事項

  • 利用規約でスクレイピングが禁止されているサイトもあります
  • 短時間に大量アクセスするとブロックされる可能性があります
  • 個人情報の取り扱いには注意してください

トラブルシューティング

症状対処法
取得できないサイトの利用規約を確認、APIの有無を調査
データが欠けている取得項目を明確に指定し直す
文字化けエンコーディングを指定して再取得
ブロックされたアクセス間隔を空けて再試行