2. 昨年の話題
EBPM
(Evidence
Based Policy
Making)
EUC (End User
Computing)
LOD
(Linked
Open Data)
Shiny
I. 身近な動きからみる国内の動向
II. EBPMについて
III. 公的統計部門の動向
IV. 公的統計部門におけるRの普及
Rユーザーの学生の採用が
進むと、ボトムアップで組
織内にRが普及していく
Statistical
Data Editing 小地域推定
(SAE)
2
3. 今回の話題
I. 国外の動向
公的統計の作成プロセスの標準化
エンタープライズアーキテクチャ (EA) の導入
CSPA (Common Statistical Production Architecture)
GSBPM (Generic Statistical Business Process Model)
方法論の共有とマニュアルの作成
Memobustハンドブック
プログラムの共有
Awesome official statistics software
公的統計のためのすごいソフト
II. Data Validation
“Statistical Data Cleaning with Applications in R”
Data Validation
Shiny アプリの紹介
まとめ
3
9. GSBPMがどう役立つか?
例1) The Memobust Handbook on Methodology for
Modern Business Statistics
新企業統計ハンドブック
[ https://ec.europa.eu/eurostat/cros/content/handbo
ok-methodology-modern-business-statistics_en ]
企業統計編纂のための方法論マニュアル
9
例2) Awesome official statistics software
公的統計のためのすごいソフトウェア
[ http://www.awesomeofficialstatistics.org ]
オープンソースソフトウェアのパッケージリスト
10. Memobust ハンドブック
• フォーカスは、標本設計、データ収集、推定及び
データ融合で、GSBPMに準拠している
• 当初は、既存の"Handbook on the design and
implementation of business surveys"(ed.
Willeboordse, 1998) の更新であったが、最終的に
はハンドブックはすべて書き直された
• トピックあるいはテーマ毎の小さなPDFファイル
の集合体で、統一フォーマットに基づいて作成さ
れている
10
[ https://ec.europa.eu/eurostat/cros/content/handbook-methodology-
modern-business-statistics_en ]
例1
15. リストの内容(一部抜粋)
Design frame and sample (GSBPM 2.1) 標本フレーム・標本設計
• R package SamplingStrata. Optimal Stratification of
Sampling Frames for Multipurpose Sampling Surveys.
Sampling (GSBPM 4.1) 標本抽出
• R package sampling. Several algorithms for drawing
(complex) survey samples and calibrating design weights.
• R package surveyplanning. Tools for sample survey planning,
including sample size calculation, estimation of expected
precision for the estimates of totals, and calculation of
optimal sample size allocation.
Scraping for Statistics (GSBPM 4.3) 統計作成のためのスクレイピング
• Java application URLSearcher. An application for searching
Urls. Can be used to find websites of enterprise. By ISTAT.
• Java application URLScorer. Gives a rule based score to
scraped documents in a Solr database. By ISTAT.
• ・・・ 15
20. Data validationとは
“confirming whether data satisfies certain
assumptions from domain knowledge”
データが、対象分野の知識に基づく一定の前提
条件を満足しているかどうかを確認すること
<実例>
1. 回答者が「その他の活動による収入がある」と申告している場合、
「その他の活動」に関する調査項目に記入がある
2. ある種の穀物の単位面積当たりの収穫量は、1ヘクタールあたり40~60
トンの間になる
3. 雇用者数が正の数であれば、給与支払総額も正の数となる
4. 雇用者数は、ゼロあるいは正の整数になる
5. 記入された地域番号は、地域番号のコードリストに存在する
EU域内の28か国について、統計作成の中でデータバリデーションの作業量
が全体の10~30%を占める
20
21. Statistical Data Cleaning
with Application in R
第一著者のMark van de Loo氏は、 “Awesome official
statistics software”の管理者で、第二著者のEdwin de Jonge
氏と共にオランダ統計局の所属
21
統計にバリューチェーンの考え方を
導入しているのが大きな特徴。バ
リューチェーンとは、ある生産活動
ステップ毎に、生産物の価値を高め
る活動の一連の流れを指す。
この「統計的バリューチェーン」
という考え方は、ここ二十年ほど公
的統計コミュニティにおいて一般的
になってきている。
24. uRos: New Challenges for Statistical Software
– The Use of R in Official Statistics –
• uRos2017 http://www.r-project.ro/conference2017.html
11月6 ~ 7日にブカレストで開催。ルーマニア統計局が
毎年主催する、公的統計におけるRの利用に関する国際学
会。2013年に統計局内の研究会から発展。ICMS2017がア
ジア太平洋地域版会合としてマレーシアでパラレル開催。
• uRos2018 https://www.aanmelder.nl/uros2018
9月10 ~12日にハッカソン、12 ~14日に本体を、ハー
グのオランダ統計局で、ルーマニア統計局とオランダ統計
局が共催。
• uRos2019 http://www.urosconf.org/
ブカレストのルーマニア統計局で、5月20~22日に開催
予定。アブストラクト締切4月12日。
24
31. cf の内容
head(values(cf))
V1 V2 V3 V4 V5 各ルール
[1,] NA NA TRUE TRUE NA
[2,] TRUE TRUE TRUE TRUE NA
[3,] TRUE NA TRUE NA FALSE 第3レコードに着目
[4,] TRUE NA TRUE NA TRUE
[5,] NA NA TRUE NA NA
[6,] TRUE NA TRUE TRUE NA
三番目のレコードは、V2とV4のチェックができず、五番目のルールを満た
していない
retailers[3,3:7]
staff turnover other.rev total.rev staff.costs
3 NA 6886 -33 6919 324
staff が欠測しているため、V2とV4のチェックが不能で、V5については、
turnover と other.rev の合計が6853で、total.revに一致せず満たしていない
31
41. 簡単な例
require(errorlocate)
rules <- validator (
age >= 0,
if (age <= 16) married ==FALSE
)
raw_data <- data.frame(age = -1, married = TRUE)
le <- locate_errors (raw_data, rules)
values(le)
age married
[1,] TRUE FALSE
age married
1 NA TRUE
replace_errors(raw_data, rules)
データを修正することもできる
41