Se ha denunciado esta presentación.
Se está descargando tu SlideShare. ×

7장 네트워크로 세상을 읽다 : 사회 관계망 분석 입문하기

Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio

Eche un vistazo a continuación

1 de 51 Anuncio
Anuncio

Más Contenido Relacionado

Similares a 7장 네트워크로 세상을 읽다 : 사회 관계망 분석 입문하기 (17)

Anuncio

Más de Hyochan PARK (11)

Más reciente (20)

Anuncio

7장 네트워크로 세상을 읽다 : 사회 관계망 분석 입문하기

  1. 1. contents<데이터분석과 저널리즘> 함형건 지음 7장 네트워크로 세상을 읽다 : 사회 관계망 분석 입문하기 2015. 05. 22 언론정보학과 김은혜 eunhye920@gmail.com 언론정보학과 박효찬 dhdkia11@naver.com 언론정보학과 박하늘 phn5379@naver.com 경 영 학 과 김성우 romeo73022243@gmail.com
  2. 2. 네트워크로 세상을 읽다 : 사회 관계망 분석 입문하기
  3. 3. ▶ 할리우드의 모든 배우들이 케빈 베이컨과 6단계 안에서 모두 연결된다. ▶ 한국사회는 3.6단계, 즉 3.6명만 거치면 모두 아는 사이라는 분석 결과도 있다. ▶ 지구촌 시대, SNS시대에는 국내를 벗어나서 단 몇 단계로 연결 가능하다.
  4. 4. • 점(node)+선(edge, line) • node는 사람 간의 관계일 땐 사람, 경우에 따 라서는 기관, 조직 혹은 성별과 소속 등의 속 성을 나타낸다. • edge은 이메일을 주고 받는 경우처럼 방향을 따져야 하는 경우와, 단순 친분관계처럼 방향 을 따지지 않아도 되는 무방향성이 있다.
  5. 5. 유형 조사 대상 예 특징 설문조사 특정집단 국회의원 간의 친소관계 현장 대면 조사로 직접 파악 자아중심 연결망 전국 대상 전 국민의 출신 지역, 소득수준에 따 른 친소관계 표본집단의 설문조사를 기반 으로 한 특정 개인을 중심으 로 한 네트워크 준 연결망 소집단 특정대학교 출신으로 특정기관에 함께 소속되어 일한 사람들의 관계 언론보도에서 활용도가 가장 높음
  6. 6. • Edge List (엣지리스트) : 인물과 인물을 짝지어 목록으로 만든 것 • 100명의 사회 관계망을 분석 한다고 가정 할 때, 한 번씩 연결 짓는다면 만 개가 넘는 짝이 만들어짐. • 따라서, 개인이 수작업 전산처리가 불가능 하기에 컴퓨터 프로그래밍이 필수!
  7. 7. Python 공식 홈페이지 https://www.python.org/
  8. 8. - 1991년 프로그래머인 ‘귀도 반 로섬(Guido van Rossum)’이 발표한 고급 프로그래밍 언어 - 반복적인 작업을 순식간에 처리
  9. 9. 1) IDLE (Python 3.4 GUI - 32 bit) 실행 2) File-new file로 새 창을 꺼낸다 3) edgelist_generator1 파일을 불러온다. 4) Run-run module을 한다 5) edgelist1.csv 파일이 만들어진다. 이 스크립트의 의미는 for구문(조건)을 사 용하여 groups.csv파일을 open하고, edgelist1.csv파일을 만든다는 말
  10. 10. 1) A열 클릭-데이터-필터- ’필드값 없음’ 선택해제 2) B열도 똑같이 ‘필드값 없음’ 선택해제 3) 총 1019행의 유효한 Edge(관계)만 남은 edgelist가 만들어진다.
  11. 11. • 행렬(Matrix)는 연결망 데이터의 더욱 일반적인 형태 • 노드엑셀에서 시각화하기 위해선 2-모드를 1-모드 행렬로 변환 <two mode matrix> <one mode matrix>
  12. 12. • 사회 관계망 전문 분석 도구 • 엑셀에 연동해 추가로 설치하는 Add-in 프로그램 • 장점 : 사용 방법이 간단, 무료 소프트웨어 • 트위터 등 소셜미디어 데이터를 수집해 분석하는 기능이 편리(페이스북은 한계) NodeXL이란?
  13. 13. • 노드엑셀 홈페이지(클릭)에서 다운 가능 • 첨부 파일에 NodeXLExcelTemplate2014Set up.exe 파일 더블 클릭 NodeXL 다운로드
  14. 14. NodeXL 탭을 눌러야 메뉴가 보입니다. 헤매지 마세요! NodeXL 창
  15. 15. • 김정은수행단_edgelist 실행 • 시작 - 모든 프로그램 - NodeXL Excel Template 클릭 ★ 주의사항 - 노드엑셀에 엑셀 자료를 불러오기 위해서는 먼저 본 엑셀 파 일을 연 다음 노드엑셀을 따로 실행시켜 불러와야 한다. - 노드엑셀 탭 – Import – From Open Workbook으로 김정은 수행단_edgelist 파일을 불러온다. NodeXL 실습 시작
  16. 16. • Edges : 데이터 입력 스프레드 시트, 간단한 데이터 입력 가능 (데이터의 행이 많을 경우 미리 준비된 데이터를 불러옴) • Vertices(단 Vertex) : Node와 동일한 표현, 선으로 연결되는 네트워 크의 각 점을 나타냄 • Edge : 네트워크의 노드를 연결하는 직선, 하나의 Edge 끝단에는 두 개씩의 노드가 위치함 • Data Type : Undirected(무방향성) Edge에 방향성이 없다. 각 탭(tab) 설명
  17. 17. • Overall graph metrics, Group metrics - 네트워크의 종합적인 통계치를 산출 • Vertex degree(연결 중앙성) • Vertex betweenness and closeness centralities(사이 중앙성과 인접 중앙성) • Vertex eigenvector centralities(위세 중앙성) • Vertex clustering coefficient Graph Metrics 설정
  18. 18. • 해석 : 모두 62명이 1,019개의 선으로 연결됐고, 이 가운데 783개는 중복된 연결선 • 각 계량지수들의 최대, 최소, 평 균치와 분포를 살펴볼 수 있음 • 사회 연결망의 중앙부에 오는 인물은 일반적(예외가 존재)으 로 영향력이 큰 사람일 가능성 이 높음 Graph Metrics 실행 결과
  19. 19. • Vertices 탭을 택하면 각 인물들의 중앙성 지수를 파악 • 연결 중앙성(Degree Centrality) : 결점(vertex)이 다른 점과 얼마나 많은 선으로 연결됐나를 합산 • 인접 중앙성(Closeness Centrality) : 다른 점들과의 거 리가 얼마나 가까운지를 측정 • 사이 중앙성(Betweenness Centrality) : 다른 점에서 점 으로 가는 유일한 통로 역할을 얼마나 하는지를 측정 • 위세 중앙성(Eigenvector Centrality) : 연결된 상대방의 중요성에 가중치를 주어 계산 각 중앙성 의미 설명
  20. 20. • Autofill Columns - 노드나 선 등을 구체적으로 어떻게 표시할 지 결정하는 과정 - 노드, 선의 색상과 크기, 모양 을 중앙성 지수와 연동 Autofill Columns 설정
  21. 21. • Vertex Color 연결도의 상한 : 46(최룡해 노드에 연결된 선의 개수) 연결선이 적을수록 파란색, 연결선이 많을 수록 붉은색 기준 : Degree -> Vertex Color Options… 클릭 Autofill Columns 설정
  22. 22. • Vertex Size 기준 : Betweenness Centrality -> Vertex Size Options… 클릭 사이 중앙성 수치 : 304.169(최룡해의 수치) 범위 : 10에서 50 사이 Autofill Columns 설정
  23. 23. • Vertex Label Vertex Label – Vertex 선택 Vertex Label Position 기준 : Degree ->Vertex Label Position Options… 연결 중앙성이 20이상일 때, 즉 19개를 초과하는 선과 연결된 주요 노드만 이름이 표시되도록 설정 위치는 노드 상단(Top Center) Autofill 클릭! Autofill Columns 설정
  24. 24. 북한 김정은 수행단의 네트워크
  25. 25. • Fruchterman-Reingold • 장점 : 노드끼리 뭉치는 현상이나 연결선이 복잡하게 겹 치는 것을 방지해 연결망이 좋게 만들어 줌 • 단점 : 때로는 식별이 용이하도록 특정 노드 사이의 거리 를 임의로 벌려놓기도 하기 때문에 노드 사이 거리로 인 물과 인물 간의 친밀도를 단정하기 어려움 시각화 알고리즘
  26. 26. • Lay Out Again - 연결망의 모습이 조금씩 바뀌고 인물들의 위치도 달라짐 일반적으로 네트워크의 주변부보다는 정중앙에 위치하는 인물의 영향력이 크고 조 직 내 생존력이 우수한 사람이라는 해석을 내릴 수 있음 Layout 설정
  27. 27. • Layout Options - 노드 사이의 반발력 (repulsive force)을 기본값인 3에서 10으로 더 올려줌 이 설정치를 높게 잡을수록 각 노드 사이의 평균거리는 멀 어지고 상대적으로 느슨하 지만 식별하기 편한 연결망 이 그려짐 Layout 설정
  28. 28. • Edges – 불투명도(Opacity)를 0% =투명도 100% =연결선이 사라짐 Graph Option 메뉴
  29. 29. • Other 탭-Labels-Font 글자의 꼴과 크기를 조정 설정값을 변경한 뒤에는 Refresh Graph를 클릭해야 변경한 내용이 연결망에 반영 Graph Option 메뉴
  30. 30. • 네트워크 중앙의 최룡해 노드를 클릭 • 더블 클릭하면 좀 더 세부적인 네트워크를 볼 수 있음 • 거의 모든 권력은 최룡해로 통함 • 이를 해제하려면 마우스 우클릭 deselect all->vertices and edges를 선택 특정 노드에 다른 노드들 연결도 확인
  31. 31. • Dynamic Filters - 일정 범위에 들어오는 노드와 연결선만 걸러주는 기능 • Degree를 기준으로 연결선이 20개 이상은 노드만 시각화 • Layout Again을 몇 번 클릭하면 연결망 모습이 바뀜 Dynamic Filters
  32. 32. Degree 20 이상 핵심 인물만 필터링 결과
  33. 33. • NodeXL(노드엑셀)이란? ☞SNS상의 정보네트워크 시각화 및 분석에 유리한 도구 • 주요한 사건과 쟁점이 발생시 SNS에서 급속히 퍼지는 정 보의 내용은 사회적으로 중요한 시사점 • 연령과 계층을 뛰어넘어 이용자의 범위와 영향력이 전방 위로 확대되고 있는 트위터 네트워크의 세계를 NodeXL 로 살펴보자
  34. 34. 1) 노드엑셀 실행 2) 좌측 상단 ‘Import’ 클릭 3) ‘From Twitter Search Network’ 클릭
  35. 35. 1) ‘예비군총기사고’ 입력 2) 트위터 아이디가 있다면 자동 으로 2번이 체크됩니다. 3) OK
  36. 36. 1) Graph Metrics 클릭 2) 팝업에서 Selcet All 클릭 3) 완료
  37. 37. 1. ‘autofill columns’를 클릭 2. ‘Vertex color’ 는 ‘in-degree’ 로 설정 3. ‘Vertex Shape’ 는 ‘Betweenness Centrality’ 로 설 정 4. ‘Vertex Size’ 는 ‘Betweenness Centrality’ 로 설정 5. 완료 후 대기
  38. 38. 1.알고리즘을 Harel-Koren Fast Multscale로 선택 2.Lay Out Again을 클릭하 여 연결 망 모양 조정 ← 실행중인 모습
  39. 39. 7.6 NodeXl을 이용하여 Facebook 팬 페이지 분석하기 Import -> import Options를 클릭 Browse 클릭 후 SocialNetImporter_v.2.0를 클릭 후 확인 을 누른다. * NoxdXL 닫기 후 다시 킨다.
  40. 40. Import -> From Facebook Fan page Network (v 2.0) 클릭 Login 후 Name/ID 부분에 “SBS뉴스” 입력 *Login 시 페이스북 계정이 있어야한다. 7.6 NodeXl을 이용하여 Facebook 팬 페이지 분석하기 팬 페이지 데이터 모으기
  41. 41. Vertices -> User Relationship -> comment Create an edge between -> User who commented in the same post 설정 후 Download Download 된 데이터 확인 7.6 NodeXl을 이용하여 Facebook 팬 페이지 분석하기 팬 페이지 데이터 모으기
  42. 42. 7.6 NodeXl을 이용하여 Facebook 팬 페이지 분석하기 팬 페이지 데이터 분석하기 Graph metrics -> Overall graph metric Vertex Degrees Betweenness Centrality and Closeness Centrality Eigenvector Centrality 선택 후 확인
  43. 43. Vertice : 237 명 Total Edges : 11396 개 Unique Edges : 7869 개 Density : 0.33 중심성값 등을 확인 할 수 있다. 7.6 NodeXl을 이용하여 Facebook 팬 페이지 분석하기 팬 페이지 분석값 확인
  44. 44. 7.6 NodeXl을 이용하여 Facebook 팬 페이지 분석하기 팬 페이지 시각화 하기 1. Autofil Columns 를 클릭을 클릭한다. 2. Vertex Color -> degree 3. Vertex Size -> degree 값으로 입력 4. Autofill 클릭 1. Graph options 를 클릭한다. 2. Shape -> Sphere로 설정
  45. 45. 7.6 NodeXl을 이용하여 Facebook 팬 페이지 분석하기 팬 페이지 시각화 하기 1. Edges를 클릭한다 2. Opacity -> 10%로 설정 1. Dymamic Filters를 클릭 후 2. Comments Created를 2~5로 설정
  46. 46. 7.6 NodeXl을 이용하여 Facebook 팬 페이지 분석하기 팬 페이지 시각화 결과

Notas del editor

  • Python3.4.3-실행-install for users선택-next-finish
  • *Python실행 전에 groups.csv파일 설명 -> python이 어떤 반복적인 작업을 해 주는 지 설명 -> s열이 주는 결과와 공백을 정리해야 되는 것 까지 언급

    *CSV (comma-separated values)는 몇 가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일이다.

  • ------------발표전, 슬라이드쇼>발표자도구사용 설정-------------
    노드엑셀은 SNS상의 정보네트워크를 시각화하고 분석하는데 유리한 도구이다.
    주요한 사건과 쟁점이 발생했을 때 SNS상에서 급속히 퍼지는 정보의 내용은 사회적으로 중요한 시사점을 던져준다.
    연령과 계층을 뛰어넘어 이용자의 범위와 영향력이 전방위로 확대되고 있는 트위터 네트워크의 세계를 노드엑셀로 살펴보자
  • 인터넷의 특성상 자료가 지금 이 순간에도 업데이트 되고 있고, 노드엑셀로 분석하기 위해선 최근 자료만 가능하기 때문에 실습 중 나타나는 내용은 본 ppt의 내용과 다를 수 있음을 미리 말씀 드립니다.
    우선 시각화에 앞서서 트위터 계정이 필요합니다.
    (트위터 ID가 없다면 회원가입, 트위터 아이디가 있다면 로그인을 한 뒤 시작)
    노드엑셀 좌측 상단의 ‘import’클릭
    ‘from twitter search network’클릭
  • 이번 시간에는 최근 이슈가 되고 있는 ‘예비군총기사고’를 검색하여 찾아보도록 하겠습니다. 오늘 실습처럼 인터넷에서 자료를 찾아오는 행위를 ‘크롤링’이라고 부릅니다. Basic network에서 최대로 분석 할 수 있는 양은 18,000개 이지만 실제로 크롤링을 할 경우 최대 설정치 에는 미치지 못합니다.
    ‘from twitter search network’클릭 후 나타나는 팝업에 ‘예비군총기사고’를 검색합니다.
    Twitter 아이디가 있다면 자동으로 2번이 체크되고 없다면 1번입니다.
    완료되었다면 OK를 클릭합니다.
    (자료의 양이 워낙 방대하기에 ‘크롤링’에 다소 시간이 걸립니다.)
  • 검색이 완료되었다면 ‘그래픽 메트릭스’ 툴을 눌러줍니다. 팝업이 뜬다면 ‘모두선택’을 눌러주고 ‘완료’를 누르시면 됩니다.

    Graph Metrics 클릭
    팝업에서 Selcet All 클릭
    완료
  • 크롤링이 끝나면 ppt처럼 자료통계가 산출됩니다.
  • 여기까지 완료되었다면 이번에는 그래프의 모양을 설정해 보겠습니다. 앞서 해본 북한권력분석처럼
    ‘autofill columns’를 클릭합니다
    ‘Vertex color’ 는 ‘in-degree’ 로 설정
    ‘Vertex Shape’ 는 ‘Betweenness Centrality’ 로 설정
    ‘Vertex Size’ 는 ‘Betweenness Centrality’ 로 설정
    완료 후 대기
  • 이제 완료되었다면 시각화를 위하여 세부설정을 해보겠습니다. 아까의 팝업에서 오른쪽 옵션을 각각 설정해 줄 수 있습니다.
    Vertex color : 집중도가 낮을 수록 파랑 / 높을 수록 빨강으로 설정
    Vertex Shape : 200000 정도로 설정
    Vertex size
    설정이 마쳤다면 실행을 합니다.
    옵션메뉴에서는 각 항목에 대한 추가적인 범위나 기준치를 설정해 줄 수도 있습니다.
  • Autofill을 실행하면 그래프 창에 네트워크가 그려집니다. 이어서
    알고리즘을 Harel-Koren Fast Multscale로 선택
    Lay Out Again을 클릭하여 연결 망 모양 조정
    사이 중심성이 상대적으로 높은 계정을 사각형으로 표시, 많은 연결선에 연결돼 연결중앙성이 높은 계정을 붉은 색 계통으로 시각화 하였습니다.
  • 사이중앙성 (Betwwenness Centrality) 기준 내림차순을 설정하면 연결이 가장 많은 순위를 알 수 있습니다.
    순위에는 일반인들과 언론사, 의원 등이 나타남을 알 수 있었습니다.
    트위터 네트워크에서는 때로는 개인 트위터 사용자가 언론사 계정 못지않은 파급력을 갖기도 합니다.
    제가 찾아본 데이터에서 1위는 개인 이용자였고, 리트윗이 많이 되어서 1위가 되었습니다.
  • 설정을 마무리하면 이렇게 트위터 관계망을 시각화 할 수 있습니다. 본인이 원하는 방식으로 설정할 수 있고, sns를 분석한다는 장점이 있습니다.
    이상으로 발표 마무리하겠습니다.

×