本文へスキップ
データ / ETL

医療機関データの統合 — 11 万件規模

分散した公的データを、スマホで使える DB に

公的データ・オープンデータ・地理情報を統合し、医療機関の大規模データベースを構築しています。

Challenge

課題

医療機関の情報は、公的データ・地図データ・各種 API に分散し、表記も揺れています。これを名寄せして整え、スマートフォンで実用的に扱えるデータベースにすることが課題でした。

Solution

解決方法

  • Python の ETL (pandas / shapely) で複数ソースを統合
  • 厚生労働省 医療機能情報提供制度 + OpenStreetMap + 国土地理院 Geocoding をクロスマッチ
  • 電話番号・住所などの類似度照合で重複・表記揺れを解消
  • 都道府県別 JSON バンドル + 遅延ロードで、大規模 DB をアプリに搭載
Result

成果

  • 約 112,000 件の医療機関データを整備、47 都道府県すべてをカバー
  • 診療科 約 47% / 住所 約 55% / 電話番号 約 32% に付帯情報を付与
  • 十万件超のローカル DB をスマートフォンで実用化する設計手法を確立

Tech Stack

PythonpandasshapelySQLiteJSON バンドル

関連リンク

※ 本ページの数値は自社管理データ (portfolio.yml / services.yml) の検証済み実数に基づきます。

この事例について相談する

お問い合わせ