4. 빅데이터 시대에 맞춰 다량의 데이터를 신속하게 처리해야 하는 필요성이 높아지고 있지만,
정형화된 데이터 처리는 대부분 복잡하고 텍스트마이닝 분석 수준으로 한국어의 특수성을
고려한 분석이 어려운 편임
이를 극복하기 위해 한국어 기반 빅데이터 일관처리 솔루션을 개발함
1. 텍스톰 개발배경 1. 소 개
5. 텍스톰(TextoM)은 네덜란드 암스테르담대학교의 Loet Leydesdorff 교수가 개발한 Full
Text 소프트웨어를 한국어 분석을 위해 변형한 프로그램인 KrKwic을 참고하여
통합적 솔루션화, 클라우드화 함으로써 이용자들이 쉽게 접근할 수 있도록 제작함
1. 텍스톰 개발배경
“ Korean Keywords in Context ”
(KrKwic)
KrKwic
KrTitle
KrText
단어 빈도분석을 통해 핵심어, 주요이미지, 중요 이슈 파악
Korean Keywords in Context
Korean Text
Korean Title
논문, 웹 페이지, 언론 기사, 특허 법조문 등의 제목 및 요약문과
같이 비교적 짧은 메시지들을 분석
Krtitle로 처리하기에 분량이 비교적 많은 메시지를 분석
1. 소 개
6. 텍스톰(TextoM)은 다른 SNA 프로그램에 사용될 공출현빈도 매트릭스 값을 제공합
1. 텍스톰 개발배경
“공출현이란?”
전체 텍스트 내 특정 범위에서 노드들이 같이 출현하였을 때 이 범위 내에
있는 모든 노드들 간에 의미론적으로 상호연관되는 관계가 있다고 가정
“철수와 영희는 친구이다. 철수는 영희와 사귄다. 그는 그녀에게 인형을
선물했다.”
철수-영희, 철수-친구, 영희-친구, 철수-사귄다. 영희-사귄다. 철수-인형,
철수-선물했다. 영희-인형, 영희-선물했다. 인형-선물했다.
10개의 관계 텍스트 내에서 개념이 공출현하면 모두 관계가 있다
“예시”
1. 소 개
7. 텍스톰은 매트릭스 데이터를 만들 수 있는 한국어 기반의 비정형데이터 일관처리 솔루션임
2. 텍스톰 개요 1. 소 개
9. 1. 텍스톰
1) 텍스톰 접속
주소창에서 www.textom.co.kr 입력하거나 네이버에서 텍스톰 검색
2. 을 이용한
데이터 수집 및 매트릭스 생성
10. 1. 텍스톰
접속한 후 메인 페이지에서 ‘TextoM Go’ 클릭
1) 텍스톰 접속
2. 을 이용한
데이터 수집 및 매트릭스 생성
11. 1. 텍스톰
ID : dtscience / PW : science1 입력
1) 텍스톰 접속
2. 을 이용한
데이터 수집 및 매트릭스 생성
12. 1. 텍스톰
솔루션의 데이터 수집 페이지 접속
1) 텍스톰 접속
2. 을 이용한
데이터 수집 및 매트릭스 생성
13. 1. 텍스톰
분석단어 : “북한”, 수집기간 : 기본 1달, 채널 선택 : 다중선택 가능
2) 데이터 수집
추가 설명
※ 수집조건
- And : 결합분석
- Or : 비교분석
※ 정제방법
- 기본적으로 ‘명사’형의
단어를 추출하여 리스트업
하지만, 형용사를 체크할
경우, 명사와 형용사를
동시에 리스트업 해줌
2. 을 이용한
데이터 수집 및 매트릭스 생성
14. 1. 텍스톰
현재상태를 통해 “수집중”, “수집완료” 확인 가능
2) 데이터 수집
2. 을 이용한
데이터 수집 및 매트릭스 생성
15. 1. 텍스톰
“수집완료” 이후 키워드 클릭하여 데이터 정제 탭으로 이동
3) 데이터 정제
참고 설명
※ 반드시 분석하고자 하는
키워드를 클릭하여,
수집데이터 박스에 키워드가
적혀진 상태여야 분석이 가능함
2. 을 이용한
데이터 수집 및 매트릭스 생성
16. 1. 텍스톰
“정제”에서 가정제 데이터 미리보기로 정제 상태를 확인 한 후 수정
3) 데이터 정제
참고 설명
※ 가정제 데이터 팝업창은
형태소 분석을 마친 이후,
특수문자, 조사를 제거한 후,
결과를 보여주는 창임
2. 을 이용한
데이터 수집 및 매트릭스 생성
17. 1. 텍스톰
수정이 완료 되면 추출단어 빈도수를 통해 주요 단어들 확인
3) 데이터 정제
참고 설명
※ 기본적으로 명사형 단어들에
대한 리스트업을 해주며,
‘빅데이터 수집’단계에서
형용사형, 동사형을 클릭하여
결과를 확인할 수 있음
2. 을 이용한
데이터 수집 및 매트릭스 생성
18. 1. 텍스톰
유의미한 단어를 선택하여 바로 매트릭스데이터 생산 가능
3) 데이터 정제
참고 설명
※ 연구자 판단에 의한 유의미한
단어를 선택하고, 분석하기 버튼을
클릭하여 다음 단계로 진행 가능
※ 단어의 리스트를 다운받아 사용 가능
(다운 파일은 .xls 포맷임)
1
2
2. 을 이용한
데이터 수집 및 매트릭스 생성
19. 1. 텍스톰
선택한 단어들의 빈도수를 다시 확인
4) 데이터 생산
2. 을 이용한
데이터 수집 및 매트릭스 생성
참고 설명
※ 연구자가 판단에 의해
선택한 유의미한 단어들의
리스트를 확인 가능
20. 1. 텍스톰
선택한 단어들의 매트릭스데이터 생산 상태 확인
4) 데이터 생산
참고 설명
※ 유의미한 단어간 간의
공출현빈도 매트릭스를
팝업창에서 확인 가능
※ 공출현빈도 매트릭스 이외에
유클리디언, 자카드, 코사인
계수의 매트릭스도 확인 가능
2. 을 이용한
데이터 수집 및 매트릭스 생성
21. 1. 텍스톰
연구자가 수집한 데이터의 이력을 리스트로 제공
5) 데이터 보관
참고 설명
※ 키워드 클릭시, 데이터의 양과
수집된 데이터 양의 값을 확인
가능
22. 1. 텍스톰
수집된 데이터의 내용을 자세하게 확인 가능
5) 데이터 보관
참고 설명
※ ‘수집데이터’를 클릭 시,
수집된 데이터의 내용을
확인 가능
2. 을 이용한
데이터 수집 및 매트릭스 생성
30. 2. UcINet 6
“north korea matrix”로 매트릭스 생산
2) 데이터 삽입
참고 설명
※ 반드시
“north korea matrix.##d”
“north korea matrix.##h”
파일 2 개가 동시에 있어야 함
3. 을 이용한
SNA(Social Network Analysis) 분석
31. 2. UcINet 6
노드의 크기를 변형할 수 있는 “Frequency” 파일 생성 필요
2) 데이터 삽입
참고 설명
※ 정제단어 빈도수의 다운로드를 받아
단어와 빈도수를 복사, 붙여넣기 시행
3. 을 이용한
SNA(Social Network Analysis) 분석
32. 2. UcINet 6
노드의 크기를 변형할 수 있는 “Frequency” (Attribute) 파일 생성 필요
2) 데이터 삽입
참고 설명
※ 상단에 반드시
“Word”와 “Freq”를 작성하여
행의 라벨링을 해줘야 함
Ctrl + C / Ctrl+V
“north korea Freq.##d”
“north korea Freq.##h”
파일 생성
3. 을 이용한
SNA(Social Network Analysis) 분석
33. 2. UcINet 6
Tool Bar에서 가장 왼쪽의 “Netdraw” 버튼 클릭
3) Netdraw 사용
3. 을 이용한
SNA(Social Network Analysis) 분석
34. 2. UcINet 6
데이터 파일을 열기 위해 Tool Bar에서 3번째 아이콘 클릭
3) Netdraw 사용
3. 을 이용한
SNA(Social Network Analysis) 분석
35. 2. UcINet 6
파일 입력 오른쪽 부분의 “…”아이콘 클릭
-> “north korea matrix.##h” 클릭
3) Netdraw 사용
3. 을 이용한
SNA(Social Network Analysis) 분석
36. 2. UcINet 6
OK 버튼 클릭 후, 네트워크 확인
3) Netdraw 사용
3. 을 이용한
SNA(Social Network Analysis) 분석
37. 2. UcINet 6
대칭의 네트워크일 경우, arrow 표시 제거
3) Netdraw 사용
3. 을 이용한
SNA(Social Network Analysis) 분석
38. 2. UcINet 6
Attribute 파일 삽입을 통한 노드 크기 변경
3) Netdraw 사용
File –> open -> Ucinet dataset –> Attribute data
3. 을 이용한
SNA(Social Network Analysis) 분석
39. 2. UcINet 6
Proportions – Nodes – Symbols – Size – Attribute-based
3) Netdraw 사용
Frequency 파일을 클릭 후 Apply 버튼 클릭
3. 을 이용한
SNA(Social Network Analysis) 분석
41. 구글에서 “nodexl” 검색 후, 사이트 접속
1) 설치하기
3. NodeXL
4. 을 이용한
SNA(Social Network Analysis) 분석
42. 오른쪽 탭의 “Download” 클릭
1) 설치하기
3. NodeXL
4. 을 이용한
SNA(Social Network Analysis) 분석
43. 3. NodeXL
매트릭스 파일을 열어놓은 후, File – from open matrix workbook
2) 데이터 삽입
※ 참고 설명
반드시 매트릭스 Excel 파일이
열려있는 상태에서 Open 해야 함
4. 을 이용한
SNA(Social Network Analysis) 분석
44. 하단의 설명에 맞춰 데이터 삽입(Import) 진행
2) 데이터 삽입
참고 설명
Vertex name -> The matrix workbook has
vertex names in row 1 and column A
Graph type -> The matrix workbook represents
an undirected graph, so the matrix is symmetric
3. NodeXL
4. 을 이용한
SNA(Social Network Analysis) 분석
45. 왼쪽 “Show Graph” 클릭
3) SNA 확인
3. NodeXL
4. 을 이용한
SNA(Social Network Analysis) 분석
46. 상단 탭에서 “Graph metrics”클릭하여, Centrality값 생성
3) SNA 확인
3. NodeXL
참고 설명
팝업창에서 왼쪽 Select All을 클릭하여
체크하고, Calculate Metrics 클릭
4. 을 이용한
SNA(Social Network Analysis) 분석
47. 상단 탭에서 “Autofill Columns” 클릭하여, 노드의 크기, 색깔 등 조절
3) SNA 확인
3. NodeXL
4. 을 이용한
SNA(Social Network Analysis) 분석
48. Vertex 탭과 Edge 탭을 활용하여 노드와 엣지의 크기 색깔 설정
3) SNA 확인
3. NodeXL
참고 설명
Vertex Color -> Degree
Vertex size -> Degree
Vertex Label -> Vertex
참고 설명
Edge Color -> Edge weight
Edge Width -> Edge weight
4. 을 이용한
SNA(Social Network Analysis) 분석
49. File – From Twitter Search Network 클릭
4) 트위터데이터
3. NodeXL
참고 설명
인증을 위해서 코드번호를 할당 받아 입력
※ 특정한 단어가 포함된 트위터가 있는 사람들의
네트워크를 수집하여 관계를 확인할 수 있는 기능
4. 을 이용한
SNA(Social Network Analysis) 분석
50. 상단에 “Autofill Columns”를 선택하여 노드의 색깔, 크기 등 설정
4) 트위터데이터
3. NodeXL
Autofill
설정
4. 을 이용한
SNA(Social Network Analysis) 분석