2. Katherine W. McCain (1990).
Mapping Authors in Intellectual Space:
A Technical Overview.
Journal of the American society for information science, 41(6), 433-443.
3. 1. Introduction
2. Selection of the Author Set
3. Retrieval of Cocited Author Counts
4. The Raw Matrix
5. Profile Analysis
6. Multivariate Analysis
7. Other Data Display Techniques
8. Interpretation and Validation
9. Longitudinal Studies
10. Afterword
INDEX
4. 1. Introduction
• “저자 A가 저자 B와 저자 C의 논문을 동시에 인용했을 때,
저자 B와 저자 C는 관계가 있다”
4
ACA (Author Cocitation Analysis)
Proximity of Points
특정 차원에서의 인지된 유사도
Clusters of Points
주제 영역, 연구 분야, 학파, shared intellectual styles, temporal or geographic ties…
Factor Loadings
각 저자 별 학문적 기여의 폭, 집중도
A
B C
데이터 수집, 분석, 시각화 과정을 거쳐, prominent 저자의 empirical map을 도출함
SPSS-X, SAS 등 통계 도구들도 데이터 mapping, clustering 기능 제공
5. 1. Introduction
5
ACA vs. DCA (Document Cocitation Analysis)
DCA ACA
Assumption 두 편의 문헌이 후에 출판된 제3의 문헌 속에서 동시에 인용되었을 때,
이 두 문헌은 주제적으로 관련이 있다.
Technique 유사성 측정, 클러스터링, 시각화 등의 기술을 분석에 이용함
Data Source ISI 등 인용 DB의 데이터를 사용함
Unit of Analysis Document Author (author’s oeuvre)
- Higher level of generality
- Changes in co-cited author
maps are less common
6. 1. Introduction
6
본 연구는…
• Drexel 대학의 research group이 유용하다고 여기는 ACA 분석 기법을 소개함
• ACA 분석 기법을 단계별로 정의하며, 각 단계마다 가능한 선택의 범위를 논의함
• 거시경제의 하위영역(1972-1977)의 데이터를 대상으로, clustering, mapping, factor analyzing을 실시함
Selection of
Authors
Retrieval of
Cocitation
Frequencies
Compilation of
raw cocitation
matrix
Convert to
Correlation
Matrix
Multivariate
Analysis of
Correlation
Matrix
Interpretation
& Validation
Steps in author cocitation analysis
7. 2. Selections of the Author Set
7
• Author set은 어떤 영역의 학문적 지형도를 그릴 것인지 정의함
• 분석 대상 저자 선정의 두 가지 방법
- Predetermined list 사용 (예: Hopkins (1984))
- Establish a diversified list of authors
Methods
Sources
Selection
• 개인적 지식, 연구자와의 상의, 설문조사, 교과서, 아티클, 수상자 명단...
• 하나 이상의 다양한 source로부터 데이터를 획득할 수도 있음
• 핵심 저자를 규명하는 작업이 필요함
- 책, 논문, 리뷰에서 많이 인용된 저자를 파악해 사용할 것
• 핵심 저자 이외에 다양한 저자들의 작업 또한 중요하게 다루어야 함
- 신진 연구자, 비전통적 접근방법 사용하는 연구자, 강한 정치적 성향이나 학파의 사회과학 연구
자 등
분석 대상 저자 선정STEP1
8. 3. Retrieval of Cocited Authors Counts
8
• SCI, SSCI, AHCI의 논문들의 서지정보(제목, 저자, 저널, 게재일…)를 온라인에서 획득 가능함
- AHCI 논문의 경우, 각주/미주/본문의 implicit citation 정보도 제공함
• DIALOG, BRS, ORBIT 등의 서비스에서 검색을 통해 서지 데이터에 접근 가능함
DB
Search
서지정보 검색
SELECT CR = MERTON R?
“Form the set of papers whose cited references include any beginning with
the string Merton R.”
STEP2
9. 4. The Raw Data matrix
9
선정한 저자 set의 각 저자를 검색해 나온
인용 문헌들의 수
Raw
Data for
ACA
Raw Data를 이용한 1차 행렬 생성
Raw
Data
Matrix
저자 이름으로 행, 열을 구성하고,
이 행렬에 Cocitation 수를 기입함
(Pearson correlation으로 치환해 사용하는
연구자들도 있음)
STEP3
10. 4. The Raw Data matrix
10
Cells
Problem
• 모든 저자가 많은 수의 cocitation 수를 가지지는 않음
- 공동저자, 새로운 분야 연구자, 비공식 채널로 소통하는 연구자 등은 인용수가 적음
• 이를 감안해, 특정 기준을 만족하는 저자들에 대해, 추가 분석을 시행하기도 함
- e.g., 평균 cocitation rates가 9 이상인 저자, 전체 저자 set 중 하위 1/3에 속하는 저자…
- 본 article의 저자 또한 이러한 추가 분석을 실시하였는데, 타당성과 map과 cluster 해석측면에
서 만족스러운 결과를 얻었음
Raw Data를 이용한 1차 행렬 생성
대각 cell - “무엇을 기입할 것인가?”
• Cocitation of an author with himself?
: prominent 저자의 경우, 다른 비대각 cell의 cocitation 수보다
지나치게 클 수 있음
• 저자의 highest 비대각 cocitation 수 (Wite and Griffith, 1981)
: 첫번째 방법의 문제를 완화하고자 함
• 비워둠 (McCain, 1989)
: treating them as missing data
비대각 cell
Upper/lower half-matrix가 동일하므로, 한쪽만 생성하면 됨
STEP3
11. 5. Profile Analysis
11
프로파일 분석
• Raw data matrix를 Matrix of proximity
values로 변환하는 과정
• 저자쌍 간 상대적인 유사성/비유사성을 도출함
• Measure: Pearson correlation coefficient
등이 사용됨
• Software: SPSS-X 등의 프로그램들에서 산출
가능함
.95
-.12
Samuelson – Hicks
High positive correlation
동일 저자와 의해 자주/드물게 cocited됨
Robinson – Lucas
서로 매우 다른 cocitation 패턴을 지님
Proximity
values
STEP4
12. 5. Profile Analysis
12
프로파일 분석
• Multidimensional scaling, cluster analysis가 폭발적으로 증가함에 따라, 다른 접근법들이 제
안되기도 함
• Bayer et al. (1990)
- Raw cocitation 빈도를 순위 데이터로 변환해 사용함
- Correlation으로 유사성을 측정할 때의 문제, raw matrix의 대각 cell 값 문제를 완화
- 대각셀에는 1을 기입하며, 순위가 높을수록 저자쌍 간 유사성이 높은 것으로 파악
Alternative
approach
Correlation
Matrix
• 저자의 cocitation에 대한 단순한 빈도수가 아닌, ‘cocitation profile’의 유사성 측정 가능
• Correlation이 높음 동일 저자에 의해 동시인용된 비율이 높음 유사성이 높음
• 인용수 높은 저자와 낮은 저자의 비교를 가능하게 함
STEP4
13. 6. Multivariate Analysis
13
다변량 분석
• 유사성 matrix 내 저자 간 관계를 display 위함
• 본 연구에서는 SPSS-X를 통한 경험을 중심으로 접근법들을 서술함
1) Cluster Analysis
2) Multidimensional
Scaling
3) Factor Analysis
Three approaches to 다변량 분석
STEP5
14. 6. Multivariate Analysis
14
클러스터 분석
• 저자들을 그룹 지어서, 해당 조직의 지적 구조에 대한 통찰을 제공함
• 150개 이상의 특정 방법론을 아우르는 용어임
• 사람, 국가 등 다양한 요소를 대상으로 함
계층적 응집 반복적 분할
Cluster 형성 방식 Bottom-up building Top-down splitting
Process 개인/개인그룹이 점진적으로 join하고,
이렇게 형성된 그룹이 더 큰 클러스터에 join
하나의 클러스터가 여러 번 분할되며,
개인이 남을 때까지 분할을 반복함
클러스터 형성 방식 (Most Popular Approaches)
ACA 연구자들이 주로 사용하는 방식
Concept
6.1 Cluster Analysis
15. 6. Multivariate Analysis
15
계층적 응집 방식
• 각 클러스터링은 graphic display를 생성함
• 하나의 클러스터로 귀결되기까지, 클러스터
가 형성되는 과정을 보여줌
• Disaply 유형
- Icicle plot, Dendrogram
6.1 Cluster Analysis
Graphic
display
• 한 저자가 존재하는 클러스터에 join하거나, 두 클러스터가 유사성에 기반해 fuse하는 과정을 통
해 클러스터를 형성함
• 유사성 척도로 저자 간 correlation matrix를 이용함
• Stopping rule은 존재하지 않음 (이를 보완하려는 연구들이 존재함)
Concept
• 사용하는 방법론에 따라 클러스터의 구성이 달라짐
• 방법론의 종류 (SPSS-X)
- single linkage, complete linkage, average linkage, Ward’s method…
• Complete linkage, Ward’s method가 ACA 연구에서 많이 쓰이며 신뢰도 있는 결과를 도출함
Methods
Icicle plot Dendogram
17. 6. Multivariate Analysis
MDS
6.2 Multidimensional Scaling (MDS)
• 근접성 matrix로 visual display 생성하는 테크닉으로, 객체들 간 구조를 파악할 수 있게 함
• 데이터를 단순화하여 2차원/3차원에서 한눈에 보여주는 것이 목적Concept
Group
Authors heavily cocited
중심부
Authors with many links to others
주변부
Authors weakly linked
Intellectual space
Similarity/
Dissimilarity
matrix
Points
가까울수록 밀접한 관계
(Inverse distance)
Table of 공간좌표
MDS 분석 과정
• 활용 용도
- Cocitation linkage에 대한 information-rich display 제공
- 핵심적인 차원 규명
• 3차원보다는 2차원을 활용함
- 2차원에서 85%이상 설명 가능
- 3차원은 복잡성에 비해 설명력이 크게 높지 않음
MDS in
ACA
19. 6. Multivariate Analysis
요인분석
6.3 Factor Analysis
• 주로 클러스터분석과 MDS 보완에 사용되며, 독자적으로 사용되기도 함
• 파생(derived) 변수나 요인을 생성하고 이를 분석함으로써, 변수 간 연관성을 설명하고자 함
• 가장 강한 1개 요인 이외의 다른 요인을 분석할 수 있음
Concept
요인구조 행렬
(저자-요인 간 상관계수 행렬)
요인분석 과정
• 핵심 연구자(loading on it)들을 대상으로 요인분석을 실시함
- Loading이 +-0.7 이상인 저자를 분석하는 것이 유의미하다 여겨짐
- 추출된 요인들의 대상으로, 비직각회전(orthogonal rotation) 방식을 주로 이용함
• Principal components analysis(PCA)를 사용함
- 다른 분석을 통한 map/cluster에서는 드러나지 않는 연관성을 분석함 (예: 저자의 breadth)
- 다른 분석에서는 단순화 과정을 거치기 때문에, 가장 강한 1개의 연관성만 드러남
Factor
Analysis
in
ACA
요인 상관 행렬 요인 정의
(요인별 주요 논문, 연구분야명)
19
21. 7. Other Data Display Techniques
21
Source: Cobo, M. J., López-Herrera, A. G., Herrera-Viedma, E., & Herrera, F. (2011)
22. 7. Other Data Display Techniques
22
Source: Cobo, M. J., López-Herrera, A. G., Herrera-Viedma, E., & Herrera, F. (2011)
IN-SPIRE
Sci2 VOSViewer
CoPalRed
23. 8. Interpretation and Validation
분석결과 해석과 검증
• 어떤 저자 클러스터, 요인, 차원이 학문적 기여, 네트
워크, 지적 결합 등을 나타내는가?
• 새로운 기술 개발, 최근 연구나 커뮤니케이션에 대한
지속적 관심 필요
Interpre-
tation
23
Valida-
tion
• 각 분야의 권위 있는 학자와의 인터뷰 실시
• Textbook, 리뷰 등의 문헌 활용 통해 트렌드 파악
• 학자들이 생각하는 학문적 지도와의 비교
Interaction
Label 검증을 위한 방법
• Automatically label the factor
: using word stems
• Microcomputer 사용
• 인터뷰 활용
• 각 분야 학자들에게 카드소팅 작업을 요청함
STEP6
25. 10. Afterword
25
The step in
a typical author cocitation analysis
1 2 3
4 5 6
Multivariate techniques
요약
26. Katherine W. McCain (1989).
Mapping Authors in Intellectual Space:
Population Genetics in the 1980s.
Communication Research, 16(5), 667-681.
27. 1. Introduction
2. The Present Study
3. Methods
4. Results
5. Interpretation of Map Axis
6. Discussion
7. Mapping Research Activity
8. Mapping Science
9. Summary
INDEX
28. 1. Introduction
• 학술저널의 article은 주된 공식적 커뮤니케이션 채널인 journal article을 데이터로 활용함
• 인용데이터는 과학 커뮤니티 조직과 지적 기반을 반영한다는 가정 하에, citation analysis를
사용함
• 저자, 즉 저자의 oeuvre를 unit of analysis로 하는 ACA를 사용함
• MDS, cluster analysis를 사용함
• 한 차원은 subject, 다른 차원은 theoretical approaches로 하는 intellectual
dimension을 생성함
28
본 연구는…
Methods
DATA
• Population genetics and related의 지적 구조를 분석함
• Cocitation pattern of 58 authors
29. 2. The Present Study
• 집단의 번식 구조와 유전 요소를 다룸
• 생물집단 상호간에 나타내는 유전적 변화를 통계학적으로 분석하여 종의 진화, 품종개량의 수단방
법과 연관시켜 연구하는 학문
• Formal, mathematical 다양한 biological and genetic questions으로 접근법 변화해 옴
• 양 유전학(quantitative genetics)과의 관계
- 진화 과정의 매커니즘 이해를 추구한다는 점에서 공통점이 있음
- 양 유전학: 길이, 무게 등과 같은 양적 특성의 유전에 초점을 맞춤
- 집단 유전학: 초파리의 특정 효소, 사람의 혈액형 등 명백한 질적 특성을 분석하고자 함
29
집단 유전학 분야
Population
genetics
Questions
1) 1980년대 문헌에서 집단 유전학, 양 유전학, 진화론이 얼만큼 상호연관성이 있다고 인식되었는가?
2) 전반적인 이론적/수학적 성향을 지닌 이 분야에서, 주제적 측면이나 공식/비공식 측면이 어떻게
표현되었는가?
3) 서로 다른 접근법(이론적, 실험적, 경험적)의 연구들이 cocitation network에서 잘 구분되는가?
4) 특정 기간의 연구 트렌드 변화가 ACA 매핑에 잘 드러나는가?
30. 3. Methods
30
Selection of
Authors
Retrieval of
Cocitation
Frequencies
Compilation of
raw cocitation
matrix
Convert to
Correlation
Matrix
Multivariate
Analysis of
Correlation
Matrix
Interpretation
& Validation
Steps in author cocitation analysis
31. 3. Methods
Print sources
31
대상 저자 선정
Sources
Author
List
Knowledgeable informants
Historical overview of
research development
Diversity of
research specialization and organisms
+
Major topics
Major figures in the various fields
Recent authors
3.1 Author Selection
STEP1
32. 3. Methods
32
데이터 수집
3.2 Data Collection
3.3 Data Compilation and Analysis
• 선정한 저자가 제1저자인 저작을 수집함
• DIALOG에서 저자 이름을 검색해서 수집함
Raw cocitation matrix 생성
• 가로, 세로축에 저자명을 기입하고, Square matrix를 만듦
• 평균 cocitation rate가 5 이상인 연구자를 대상으로 함
• 대각셀은 ‘missing data’로 비워둠
STEP2
STEP3
33. 3. Methods
33
3.3 Data Compilation and Analysis
Correlation Matrix로 변환
• Pearson’s correlation coefficient
• SPSSX의 FACTOR procedure 사용
• ‘inverse distances’
STEP4
34. 3. Methods
34
3.3 Data Compilation and Analysis
3.4 Interpretation
• 연관성 높은 저자 그룹 규명하기 위해 사용
• SPSSX CLUSTER
• Ward’s method, complete linkage
approaches 사용
둘을 비교해 boundary-spanning
authors 가려냄
Multivariate AnalysisSTEP5
Cluster
analysis
MDS
• 저자들 간의 전체 관계를 이차원 지도에 display
하기 위해 사용
`
+
해석과 검증STEP6
• 저자의 저작 및 리뷰의 맥락과 내용 파악
• 대면 인터뷰(8명)와 전화 인터뷰(2명)
35. 4. Results
Group
Authors heavily cocited
둘 중 Ward’s method clusters (11 cluster lever) 선택
Label은 인터뷰와 저작 콘텐츠, 리뷰 분석 통해 붙임
중심부
Authors with many links to others
주변부
Authors weakly linked
Points
가까울수록 밀접한 관계 (Inverse distance)
Mean co-citation rate 32
Range of raw-cocitation counts 0-453 0: 연결 없음 / 453: Nei and Selander
Range of mean co-citation rates 7-106
Number of unique number
pairings never made 38 38쌍의 저자들은 cocite되지 않음, 연결 비율은 98%
parings made only one 75 서로 거리가 먼 저자들끼리 만들어지는 경우 많았음
이 중 반 정도는 review article에서 형성된 쌍임 (Lewontin’s review가 8쌍 형성)
Mean cocitation rate
low rate: recency, 작은 분야
4.1 Overview `
36. 4. Results
Molecular
Phylogenies
• 단백질 진화에 대한. 분자시계, 진화 역사 등
• 세 명의 저자로 이루어짐
• 인터뷰에 따르면, 이들은 집단 유전학에서 다른 것들과는
거리가 멀지만, 규모가 크고 중요한 분야
• Nei의 연구와 연관이 있음.
Allelic
Diversity/
Allozyme
Studies
• 집단의 genetic variation 측정에 관심을 가짐
• 새로운 기술을 사용
• Nei: major theorist
• Ayala and Selander: major applied researcher
Generalists • 매우 다양한 구성원들로 이루어짐
Neutral
Theory Cluster
• Genetic variation의 진화적 역할에 초점을 맞춤
• 수학적 모델로 표현되는 경우 많음
Human
P.G.
• Neel: 인디언의 genetic variation and mutation rates
• Cavalli-Sforza: human population genetics 관련 연구,
Feldman, Bormer와 공동저작 많음
• Morton: 분야 내에서 가장 많이 피인용되는 수학적 모델
고안
Theory/
Mathematical
Models
• 이론적 집단 유전학의 창시자 중 2명을 포함함
• Wright: 이 클러스터, 전체에서도 가장 유명한 학자로 50
년 이상 집단 유전학에 공헌해 옴
• Crow: 2세대 이론가
• 4, 5는 통계적 분석과 수학적 모델링을 함께 사용하는 연구
자들에 의해 연결됨
4.2 Clusters
1
2
3
4
5
1
2
3
4
5
6
`
6
37. 4. Results
Model of
Speciation
• Older generation 저자들
• Descriptive > mathematical
Drosophila
P.G.
• 클러스터 내 저자들이 함께 참여한 공동저작 많음
Plant
P.G.
• 2개의 하위그룹으로 구성됨
• 다양한 배경의 저자들로 구성됨
Quantitative
Genetics
• 영국의 Older-generation 저자들
• 양 유전학 저자들과의 secondary link들로 인해 클러스터
의 형태가 구부러져 있음.
(예: Thoday는 Drosophila을 집중 연구했기 때문에 클러
스터 7과 가까이 위치함)
Phenotypic
Adaptation
and Evolution
• Phenotype(형질)과 fitness 간 관계에 대한 다양한 수학적
모델 만든 저자들
• 세부연구주제에 따라 하위그룹으로 나눌 수 있음
4.2 Clusters
7
9
7
8
9
11
8
11
`
10
10
38. 5. Interpretation of Map Axis
38
주제영역
Over time
highly molecular-oriented interaction variation, selection, specification
접근방법
Theoretical
Empirical/
Experimental
Hedrick’s three-part classification
O-X
T-X
Theoretical
(Mathematical)
`
39. 6. Discussion
39
• 인터뷰를 통해 확인한 결과, 결과물이 유효한 것으로 확인함
• 유전학자들에게 “made sense”했음
• Reasonable connections among the authors and their contributions
Validation
`
인터뷰를 통한 유효성 확인
• Adaptation cluster: 클러스터를 구성하는 저자들이 적절하지 않다고 함
• 인터뷰를 실시한 유전학자들의 특성에 근거하는 것으로 보임: 대다수가 map의 왼편에 위치한 분야
를 연구해서, adaptation cluster에 대한 이해가 깊지 않은 것으로 추정
• 다른 클러스터에서도, 매우 유명한 연구인데 인터뷰 대상자들은 모르고 있는 경우가 있었음
잘 설계된 cocitation 저자 연구는 분야 내에서 잘 알려진 학자의 이해를 go beyond 할 수 있음
(단, 적절한 author set을 선정했다는 전제 하에)
Exception
40. 7. Mapping Research Activity
8. Mapping Science
40
• Cocited author mapping은 과거의 정보 생성 및 사용 패턴을 분석 대상으로 함
• 저작과 인용 데이터가 쌓이기 위해서는 시간이 필요함
• 특정 연구 영역의 지적 구조에 대한 historical view가 가능함
• 본 연구에서 다룬 영역의 연구 트렌드는 변화하고 있으며, 최근 연구 동향도 살펴볼 것을 제안함
Time
ACA와 ‘시간’
본 연구의 의의
본 연구는 Price(1979)가 제안한,
과학의 주요 특성이 2차원 map에 표현될 수 있다는 점을 기반으로 하였음
Contribution 2
본 연구는 theoretical, experimental, empirical
즉 접근법에 따른 분류방식을 도입하고
이에 따라 연구들을 추가 분석하였음
본 분류는 인터뷰를 통해서도 적절함이 확인되었음
Contibution 1
본 연구는 가로축(주제)과 세로축(접근방법)에
의미를 부여하고, 축을 중심으로 위치에 따른 저자들의
특성을 구체적으로 살펴봄으로써
cocited author mapping에 기여하였음
41. 9. Summary
41
• 데이터를 쉽게 구할 수 있음
• 기법들이 잘 구축되어 있어 분석이 용이함
• 큰 matrix의 숨어있는 패턴도 파악할 수 있음
• 저자를 unit of analysis로 설정함으로써,
: 분야에 대한 저자의 인식을 분석에 활용하고
: 협업, 커뮤니케이션 패턴 등도 파악할 수 있음
Limitation
Cocitation Analysis
{ }
Strength
• 인용 데이터가 충분하지 않은 저자의 경우,
분석이 제대로 이루어지지 않을 수 있음
• 공동저자는 분석 대상으로 고려되지 않음
“Communication researchers should find
much of value in co-cited author mapping”
42. References
Key Papers
McCain, K. W. (1990). Mapping authors in intellectual space: A technical overview. Journal of the American society for information
science, 41(6), 433-443.
McCain, K. W. (1989). Mapping Authors in Intellectual Space: Population Genetics in the 1980s. Communication Research, 16(5), 667-
681.
Others
Cobo, M. J., López-Herrera, A. G., Herrera-Viedma, E., & Herrera, F. (2011). Science Mapping Software Tools: Review, Analysis,
and Cooperative Study Among Tools. JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND
TECHNOLOGY, 62(7), 1382-1402.
이재윤. (2006). 지적 구조 분석을 위한 새로운 클러스터링 기법에 관한 연구. 정보관리학회지, 23(4), 215-231.
이재윤, 김희전, & 유종덕. (2010). 저자프로파일링과 요인분석을 이용한 국내 주거학 분야의 지적 구조 분석. 한국문헌정보학회지, 44(2), 285-308.