このプロジェクトは、中央社会保険医療協議会診療報酬調査専門組織DPC評価分科会の「DPC導入の影響評価に関する調査」報告ページの資料をダウンロードしてきて 使いやすいようにデータベースに落とすことを目的としています。
たとえば、
http://www.mhlw.go.jp/stf/shingi/0000056344.html
http://www.mhlw.go.jp/stf/shingi2/0000104146.html
を見に行くと、次のような問題があることがわかります
- 病院に振られているIDが、年度ごとに変わる。
- 一覧・集計したいデータが、20個以上のファイルに分割されている。しかも、Excel。
- 合計・平均はあるが、一次データであるはずの件数はそこから逆算しなければいけない。
これらを、一括してデータベースに格納することにより、経年比較や集計が手軽に行えるようになることが期待されます。
- mysql
- python (3.x)
- requests
- bs4 (BeautifulSoup)
- mysql-connector (mysql-connector-python3)
- xlrd (python3-xlrd)
getDpc.py 西暦年 報告ページURL
例:
getDpc.py 2014 http://www.mhlw.go.jp/stf/shingi2/0000104146.html
注意:
- データは「古い順」に読み込まないと、共通病院 ID の割り振りに失敗します。
hospitals | 病院テーブル |
---|---|
id | 病院ID (内部で振られるユニークID) |
year | 西暦年 |
nr | その年の病院番号 |
oldnr | 前の年の病院番号 |
name | 病院名 |
disname | 病気テーブル |
---|---|
did | 病気ID |
dname | 病気名 |
tr1 | 処置1有無テーブル |
---|---|
year | 西暦年 |
nr | 病院番号(西暦年依存) |
did | 病気ID |
withop | 手術の有無(0/1) |
withtr1 | 処置1の有無(0/1) |
cases | 件数 |
days | 入院日数(合計数) |
tr2 | 処置2有無テーブル |
---|---|
year | 西暦年 |
nr | 病院番号(西暦年依存) |
did | 病気ID |
withop | 手術の有無(0/1) |
withtr2 | 処置2の有無(0/1) |
cases | 件数 |
days | 入院日数(合計数) |
- 平成29年度 2017
- 平成28年度 2016
- 平成27年度 2015
- 平成26年度 2014
- 平成25年度 2013
- 平成24年度 2012
- 平成23年度 2011 (現在非対応のフォーマット)