대한민국을 위한 Open Linked Political Data 플랫폼, "정치in" 제안
1. <컴퓨터응용특강: Information Universe, 2011 Fall>
2011-10-19 - 1 -
대한민국을 위한 Open Linked Political Data 플랫폼, <정치in> 제안
- Term Project Proposal -
서울대학교 공과대학 산업공학과
박은정 @echojuliett
1. Motivation
- A군은 서울 시민이다. 얼마 전 오세훈 시장이 사퇴한 후 안철수 교수가 출마할지도
모른다는 트윗을 보며 흥분했다. 정치권은 이상하리만큼 동요했고, 트위터 내에서도
안철수 출마에 대한 의견이 분분했다. 혹자들은 환영의 뜻을 드러냈고, 또 다른 사람들은
‘정치는 정치인들에게 맡겨야 한다’며 반대의 뜻을 펼쳤다.
- 10.26 서울시장 보선을 불과 며칠 앞두고 있다. 각종 신문에서는 나경원과 박원순 후보에
대한 각종 여론 조사를 깔끔하게 가공하여 보여주고 있다. 공신력 있는 언론사들이지만
B양은 과연 데이터 가공에 논리적인 오류는 없었을까 의심을 하고 있다. 마음 같아서는
원본 데이터를 요청해서 스스로 확인해보고 싶지만, 중간고사도 앞두고 있고, 산학과제도
해야 하기 때문에 그 정도의 열정까지 쏟기는 어렵다고 생각한다.
대한민국은 대의민주주의 국가이다. 유권자들은 선거라는 방법을 통해 대표자를 선출해서,
대표자가 자신의 정치적 입장을 대변해줄 것으로 믿고 그들에게 정치를 위임한다. 하지만 어떤
사람들은 대표자에게 자신의 정치적 권리를 ‘일임’하기도 한다. 그러나 완전한 의미에서의 정치는
구성원 모두가 스스로 참여할 때 가장 큰 의미를 가진다고 볼 수 있을 것이다.
고대 아테네에서는 그렇게, 직접민주주의가 이루어졌다. 하지만 곧 왕정시대가 되면서
시민들은 주권을 잃게 되었고, 이후 공화국이 되어서도 인구가 많아지고 직업군이 다양해졌다는
이유 등으로 모든 사람들이 정치 참여하기는 어려워지게 되었다. 하지만 다시, 시민들이 정치에
적극적으로 참여할 수 있는 가능성이 보인다. 다음의 아고라나 트위터 등은 소통의 매개의
시작일 뿐이다. 기술과 인터넷은, 보다 세상을 수평적으로 만들어주고 있다.
이러한 상황에서, 데이터마이너로서는, 데이터와 인터넷과 공학 기술을 통하면
직접민주주의의 장을 다시 펼칠 수 있지 않을까 하는 희망을 품게 된다. 따라서 본 연구과제는,
위의 세 가지 요소 - 데이터와 인터넷과 공학 기술 - 를 통해 사람들이 자발적으로 정치에
참여하여(정치in) 스스로 자주적 정치인(정치人)이 될 수 있도록 돕는 서비스를 개발하는 것을
목적으로 한다. 특히, 정치의 기본은 입법이라는 전제하에, 국회에 있는 의원과 국회에서
발의되는 의안들을 중심적으로 다루기로 한다.
2. Related work
Data.gov와 같은 사이트에서는 이미 방대한 분량의 데이터를 다루고 있다. 이 중에는 ‘open
government’ 관련 데이터도 많이 있는데, 국내에서도 보다 발 빠른 움직임이 있었으면 한다.
참고 자료들은 뒤의 Appendix에 리스팅 되어 있다.
2. <컴퓨터응용특강: Information Universe, 2011 Fall>
2011-10-19 - 2 -
3. Korea political open data platform
정보공개제도는 국정운영에 대한 정보를 국민의 청구에 의해 공개하거나, 중요정보를 사전에
국민에게 제공함으로써 국민의 알권리를 보장하고 국민참여와 투명성을 제고시키기 위한 제도적
장치를 의미하며, 지난 1996.12.31 제정/공포되고 1998.1.1부터 시행되었다.1
이에 따라 국가기관, 지방자치단체, 정부투자기관, 그 밖의 공공기관이 보유하고 관리하는
데이터 중 많은 부분이 인터넷에서 공개가 되고 있다. 그러나 이 데이터를 통합적으로 관리하고
있는 부서가 없는 관계로, 데이터의 효율적인 이용은 어려운 실정이다.
특히 여기에는 몇 가지 문제점이 있는데, 1) 문헌의 대다수가 hwp 또는 pdf 형식의 파일이기
때문에 접근성이 떨어지고 2) 문헌들에 대한 공통된 분류체계가 없는데다가 3) 몇몇 기관에서는
문서 청구 시 열람 수수료가 있기 때문에 데이터가 제각각 동떨어져 있게 된다.2
국회 역시 ‘맞춤입법콘텐츠검색시스템3
’를 통해 제헌(1948년)부터 현재까지의 입법콘텐츠(의안,
회의록, 영상회의록, 법률)를 검색할 수 있는 시스템을 마련해 놓았는데, 일반인들에게는 여러모로
접근성이 떨어진다는 점에서, 그 방대하고 중요한 데이터가 효과적으로 활용되지 못하는 것 같아
아쉬움을 남긴다.
아래 그림 1은 2011년 10월 17일에 게시된 ‘국립대학 재정, 회계법안’에 대한 정보이다.
제안회기에 ‘제18대 (2008~2012) 제303 회’라고 쓰여있는데, 의안이 언제 제안이 되었는지에
대한 정보뿐 아니라 해당 회기에 어떤 의안들이 제안 되었는지 알 수 있으면 좋을 것 같다. 이는
간단히 URI로 처리할 수 있는 부분이다. 또, ‘제안자’ field에 ‘박보환의원등 11인’이라는 문구가
쓰여져 있는데, 그 오른쪽에 있는 버튼을 클릭해보면 발의의원 명단이 뜬다. 하지만 대부분의
유권자들은 4년마다 한 번씩 바뀌는 200여명 국회의원들의 이름만 보고는 발의한 사람의 정체를
알 수 없을 것이다(아마 정치인들과 극소수의 정치 담당 기자들은 서로서로 알지도 모르겠다).
그림 1. ‘맞춤입법콘텐츠검색시스템’에 게시된 2011년 10월 17일자 <국립대학 재정, 회계법안>
1
http://www.nis.go.kr/svc/community.do?method=content&cmid=11471
2
http://www.nis.go.kr/svc/community.do?method=content&cmid=11489
3
http://naph.assembly.go.kr/
3. <컴퓨터응용특강: Information Universe, 2011 Fall>
2011-10-19 - 3 -
어떤 지역구에서 선출된 의원인지, 그 동안의 정치경력은 어떠했는지, 해당 의안 말고는 또 어떤
의안의 발의에 참여했는지 등이 궁금할 수 있는데, 현재 국회에서 제공하는 인터페이스상으로는,
수많은 클릭 수로 점철된 엄청난 의지가 있지 않는 이상 국회에서 어떤 일이 일어나는지 쉽게 알
수 없다. 그렇다면 우리는 또 다시, 극소수 정치 담당 기자들에게 의존할 수 밖에 없다.
또, 재미있는 것은 동일한 컨텐츠가 다른 사이트에 중복되어서 올라가 있다는 점이다. URL을
자세히 들여다보면, 마지막 코드가 동일하다는 것을 확인할 수 있는데, 이는 같은 DB를 사용하고
있을 수 있다는 것을 암시한다. 그렇다면 국회의 데이터도 ‘linked’ 되어 있다고 볼 수 있을까?
‘맞춤입법콘텐츠검색시스템’에서 본 <국립대학 재정, 회계법안>:
http://naph.assembly.go.kr/billDisplay.do?billId=PRC_I1O1X1W0V1J7O1U7T3D4S1Q2O3W0J7
‘의안정보시스템’에서 본 <국립대학 재정, 회계법안>:
http://likms.assembly.go.kr/bill/jsp/BillDetail.jsp?bill_id=PRC_I1O1X1W0V1J7O1U7T3D4S1Q2O3W0J7
표 1. <국립대학 재정, 회계법안> 의안에 대한 정보 링크
결국, 최종적으로는 위와 같이 비효율적으로 관리되고 비효과적으로 사용되고 있는 의안 데
이터를 좀 더 접근성이 좋게 하고, user friendly하게 가공하면 좋을 것이다. 이와 더불어, 발의하는
의원 정보는 의안 정보와 분리시켜 볼 수 없기에, 의원 정보도 같이 볼 수 있도록 하는 것을 목
표로 한다. 마지막으로, 직접민주정치를 달성하기 위하여 user interaction 및 participation까지 가
미되는 것도 좋겠다.
3.1. Data collection and preprocessing
먼저, 의원과 의안에 관련된 각종 데이터를 수집한다. 국회는 API를 제공하지 않기 때문에
크롤러를 활용한다. URL이 있는 경우, 이를 별도로 기록하여 RDF 등의 방식으로 관리하는 것도
한 가지 방법이다.
또, 본 연구에서는 영상 등의 파일 데이터는 고려하지 않기로 한다. 결국 모든 데이터가
텍스트로 처리가 되기 때문에 language translation service 등도 implement할 수 있겠으나 본
연구에서는 적용하지 않기로 한다.
3.2. Linked data and data mining
데이터를 linked data로 구조화하는 것이 관건이며, 이를 위한 설계가 본 연구과제의 가장 주요한
과정이 될 것이다. 데이터가 구조화된 이후에는 유권자들을 inform하고 guide해서 decision
making을 용이하게 하는 analysis를 할 수 있다. 의안은 NLP를 하여 LDA 등의 방법론을 통해
topic을 추론할 수 있을 것이다. 의원 간에는 (실시간?) 소셜 네트워크 분석을 할 수도 있겠다.
이 플랫폼이 영향을 발휘하기 위해 가장 중요한 것은 UI와 data visualization이라고 할 수
있겠다. 원본 데이터는 텍스트이지만, 유저에게 보일 때에는 직접적인 글자나 숫자보다는 그래프
등의 시각적 모델을 활용하기로 한다. (ex: 공약, 연설문 tag cloud)
4. <컴퓨터응용특강: Information Universe, 2011 Fall>
2011-10-19 - 4 -
3.3 User participation
URL이 publish 가능하도록 하고, 원본 데이터에 누구나 접근할 수 있도록 허용한다. 4
나아가
유저들이 플랫폼 상에서 의안에 대한 찬반 의견을 제시하고, 스스로 의안을 제안할 수 있는
서비스를 제공하여 유저간 상호작용을 할 수 있도록 할 수 있을 것이다. 그러나 본
연구과제에서는 communication tool은 생략하기로 한다.
4. Plan
10/19-10-28 Data crawling
10/29-11/18 Open linked data architecture 구상 및 implementation
11/19-11/30 Data analysis
5. Summary
- 대한민국 국회 의원 및 의원 정보에 대한 open linked data 플랫폼 개발
- 위 데이터를 기반으로 한 mining 및 visualization
4
이 때 Google docs 활용할 수 있음
5. <컴퓨터응용특강: Information Universe, 2011 Fall>
2011-10-19 - 5 -
Appendix
* 벤치마크
- http://theacro.com/zbxe/home : 아크로. 정치 토론 사이트
- http://www.opensecrets.org/index.php 미국 정치인(대통령/국회의원 등) 정치자금 소스 및
사용처 공개 사이트.
- http://www.guardian.co.uk/news/datablog : 가디언 데이터 블로그
* 공공 정보 개방
- http://moiba.or.kr : 한국 무선인터넷 산업협회
- http://publicinfo.or.kr : 공공정보 활용 앱 지원사업
- http://blog.daum.net/anybil/6238652 ; 공공서비스 모바일 서비스 대응 관련 논평
- http://mobile.openapi.seoul.go.kr/ 서울시 공공정보 오픈 API
* 공공정보 개방 외국 사례
- http://www.guardian.co.uk/data 사회적 의미를 읽어낼 수 있도록 데이터들을 수집-공개-
소개해주는 가디언의 DataStore. 보스턴글로브의 '빅픽쳐', NYT 의 인터액티브와 함께, 온라인시대
구 저널리즘의 자존심이라 할 만.
- http://data.worldbank.org/ 세계은행(The World Bank) 오픈 데이터 사이트. 잘 정리된 세계
각국의 다양한 데이터를 주제, 국가별로 탐색할 수 있음. 간단한 그래프로 추세를 확인, 원하는
데이터를 내려받기 편리. 앱도 있음.
- http://www.betterworldflux.com/ 세계은행 공개 데이터를 활용한 인터랙티브 인포그래픽.
- http://www.nytimes.com/interactive/2010/11/13/weekinreview/deficits-graphic.html 직접
정부예산삭감에 나서보는 Budget Puzzle (NYT). 한 번 해보면 엄청난 미연방적자가 어디에서
기인하는지 이해할 수 있음.
-
http://www.ted.com/talks/lang/kor/david_cameron.html?awesm=on.ted.com_8rTO&utm_campaign
=david_cameron&utm_content=ted.com-talkpage&utm_medium=on.ted.com-
twitter&utm_source=twitter.com 영국 보수당 당수이고, 현 총리인 데이빗 캐머런이 작년 2 월에
했던 TED 강의.
* 정치인 DB Wiki
- http://politician.tiddlyspot.com/
6. <컴퓨터응용특강: Information Universe, 2011 Fall>
2011-10-19 - 6 -
_______________________________
어떻게 하면 많은 사람들이 자신의 정치적 신념들을 좀 더 많은 사람들에게 전달할 수 있을까?
GUIDELINES
politicsIN.kr
`정보우주` 활용할 눈을 뜨자
http://www.dt.co.kr/contents.html?article_no=2011061702010151697036
인터넷, 10년뒤 100배 커진다
http://www.dt.co.kr/contents.html?article_no=2010091702010151697014
Announcing the Guardian Politics API
http://www.guardian.co.uk/open-platform/blog/announcing-the-guardian-politics-api
http://www.guardian.co.uk/data
첫시간: Big data활용 (open data -> visualization이 관건!!!!!!!!!!!!!!!!!!!!)
응용 사례 구현?
Tim Berners Lee (TED), 1~2주 가량
프로젝트는 개인
구현자체보다는 Idea가 중요 (그렇다고 구현하지 말라는 얘기는 아닌듯)
2~3페이지 정도
학기말에는 레포트 제출
http://www.attackwatch.com/
http://www.politifact.com/truth-o-meter/promises/
정치 플랫폼 제안
현황: xxx 법에 의해 모든 정보를 공개하고 있음
그러나 pdf 파일로
가독성 떨어지고 재생산성 떨어짐
데이터를 모든 사람들이 가공할 수 있는 형태로 만들 수 있다면?
정치인에 대한 정보를 좀 더 많은 사람들이 structured된 형태로 볼 수 있다면?
http://www.jeromecukier.net/blog/2011/10/14/open-data-and-data-journalism/
http://opencampaigns.wordpress.com/
http://www.good.is/post/knowledge-deficit-the-battle-for-open-data/
http://www.crisscrossed.net/2010/03/04/frankfurt-gestalten-open-data-for-transparency-and-
engagement-in-local-politics/
http://owni.eu/2011/08/03/france-and-open-data-a-narrow-view/
http://e-blogs.wikio.co.uk/german-internet-politics-cdu-politicians-for-open-data
7. <컴퓨터응용특강: Information Universe, 2011 Fall>
2011-10-19 - 7 -
examples
http://www.guardian.co.uk/data
http://www.guardian.co.uk/open-platform
http://www.guardian.co.uk/open-platform/blog/announcing-the-guardian-politics-api
http://dataviz.fhimt.com/
http://whatdatacandoforyou.cloudcontrolled.com/ 이것과 유사하게 하면 되지 않을지?
http://dataveyes.com/ 페이지 구성은 이런식으로
http://www.scoop.it/t/journalisme-graphique
http://dataviz.fhimt.com/ 목적을 이렇게? 흠….