2. #벚꽃스타그램
인스타그램 태그로 살펴본 벚꽃 개화시기 추정
스리랑카 2019
인도별거북 서식처 답사
연구 관심사: 공간통계, 종 분포 모형, 기계 학습
LophitaL@snu.ac.kr
국토문제연구소 전청옥
3. 학습 목표
종 분포 모형의 원리와 목적을 이해한다
종 분포 모형 결과를 해석하고 올바르게 추론할 수 있다
종 분포 모형의 적합 과정에 대해서 이해한다
4. 들어가기 전에
“선호”에 대한 예측과 해석 방법
자연지리학 뿐만 아니라 연구, 산업, 행정 등에서
이미 폭 넓게 사용되는 도구(추천 시스템, 입지 분석, 수요 예측 등)
관심 분야가 아니더라도 알아 두면 좋은 내용
5. 들어가기 전에
기계학습 기반 추론이 어떻게 작동하는지
기계학습과 사람이 각각 잘할 수 있는 일은 무엇인지
기계학습 기반 추론을 어떻게 실생활에 응용할 수 있는지
자연지리학의 모델링 연구는 첨단 컴퓨터 과학과 연계되어 있는 분야
AI 자연지리학
6. 당신이 인도네시아 공무원이라면……
제한된 예산
제한된 인력
제한된 시간
보전 구역 설정 지시
최대한 많은
오랑우탄 보호
1. 오랑우탄이 많은 곳
2. 오랑우탄이 서식하기 좋은 곳
3. 서식처 훼손 위협이 심각한곳
4. 기존 보전 구역과 가까운 곳
Where?
수혜받는 오랑우탄이 많은 곳으로
오랑우탄이 좋아하는 곳으로
가장 도움이 필요한 곳으로
가장 경제적인 곳으로
7. 당신이 인도네시아 공무원이라면……
제한된 예산
제한된 인력
제한된 시간
보전 구역 설정 지시
최대한 많은
오랑우탄 보호
1
3
5
4
2
어디에 많이 있으니까. 만으로는 부족한 타당성
8. 양질의 서식처 파악
오랑우탄이 좋아하는 곳 중에서
지역별 특성 파악
1
3
5
4
2
가장 보전이 필요한 곳을 찾기
합리적인 보전 대책
종 분포 모형
13. 종 분포 모형의 해석
3400m~4300m 고도이면
눈표범이 출현할 확률이
50%이상이기 때문에
눈표범은 3400~4300m 고도를 선호한다
14. 종 분포 모형
뭘 좋아하고 싫어하는지 맞춰볼게
대나무를 좋아하는 판다는
대나무 근처에 있을 거야
종의 환경 선호도에 기반한 공간 분포 추정
15. 종 분포 모형
종이 자주 발생한 곳의 특징에
기반한 공간 분포 추정
산사태 분포 모형
산사태가 자주 발생하는 곳의 특징에
기반한 공간 분포 추정
범죄 분포 모형
범죄가 자주 발생하는 곳의 특징에
기반한 공간 분포 추정
서비스업 분포 모형
서비스업이 자주 발생하는 곳의 특징에
기반한 공간 분포 추정
…
…
분포 모형 관심 대상의 공간 분포를 예측, 설명
22. 종 분포 모형 = 종의 환경 선호도 조사
1. 좋아하는 것과 싫어하는 것
2. 주어진 것 중, 선택하는 것
23. 1. 좋아하는 것과 싫어하는 것
출현하는 곳과 안출현하는 곳의 특징을 비교
감귤류는 따뜻한 곳을 좋아하고, 추운 곳은 싫어한다
24. 1. 좋아하는 것과 싫어하는 것
하지만 호불호가 그때 그때 바뀐다면?
= 호불호가 명확한 타입
선택지에 따라 선호도가 바뀌는 타입도 있다
25. 2. 주어진 것 중, 선택하는 것
선택지를 주고 선택한 곳의 특징을 파악
엄청 좋아하는 건 아니지만, 이 중에선 이걸 고를게
쓰레기를 좋아하진 않지만 주변에 먹을게 마땅치않다면… 다른 동물에 붙어있는 걸 좋아하지만 양식장이 있다면
26. 2. 주어진 것 중, 선택하는 것
1. 좋아하는 것과 싫어하는 것
출현 자료와 비출현 자료:
선호하는 환경과 싫어하는 환경을 지시하는 정보
출현 자료와 배경자료:
선호하는 환경과 주어진 환경을 지시하는 정보
27. 풀: 20%
모래: 70%
강: 10%
오리 분포 모형의 예시
풀 모래 강
오리 서식처는
주변의 풀, 모래, 강의 비율에 따라 결정된다.
출현 자료:
좋아하는 환경
비출현 자료:
싫어하는 환경
배경자료:
주어진 환경
주변의 범위
28. 풀: 2
모래: 7
강: 1
출현 자료와 비출현 자료:
선호하는 환경과 싫어하는 환경을 지시하는 정보
풀: 10
모래: 0
강: 0
풀: 0
모래: 1
강: 9
29. 풀: 2
모래: 7
강: 1
오리는 풀이 많은 곳에서 많이 있다.
오리는 강이 많은 곳에서 없었다
풀: 10
모래: 0
강: 0
풀: 0
모래: 1
강: 9
오리는 풀이 많은 곳을 좋아하고
강이 많은 곳을 싫어하니
오리 서식처는 풀이 많고 강이 적은 곳이다.
30. 풀: 2
모래: 7
강: 1
풀: 10
모래: 0
강: 0
풀: 0
모래: 1
강: 9
출현 자료와 배경자료:
선호하는 환경과 주어진 환경을 지시하는 정보
31. 풀: 2
모래: 7
강: 1
풀: 10
모래: 0
강: 0
풀: 0
모래: 1
강: 9
강이 많은 곳, 모래가 많은 곳, 풀이 많은 곳 중에서
오리는 풀이 많은 곳에서 많이 있다.
오리에게 풀 많은 곳, 모래 많은 곳,
강이 많은 곳을 다 보여주었으나
풀이 많은 곳을 주로 선택했으니
오리 서식처는 풀이 많고 강이 적은 곳이다.
32. 종 분포 모형?
모형? 모델? 모델링?
𝑦𝑦 = 𝑎𝑎𝑥𝑥 + 𝑏𝑏
심박수
산소포화도
칼로리 소모
운동 횟수
내가 가진 정보
알고자 하는 정보
빛의 반사량
흡수량의 변화
정확하진 않지만, 추정은 할 수 있어
33.
34. 2. 주어진 것 중, 선택하는 것
1. 좋아하는 것과 싫어하는 것
출현 자료와 비출현 자료:
선호하는 환경과 싫어하는 환경을 지시하는 정보
출현 자료와 배경자료:
선호하는 환경과 주어진 환경을 지시하는 정보
𝑦𝑦 = 𝑎𝑎𝑥𝑥 + 𝑏𝑏
내가 가진 정보
알고자 하는 정보
서식처 적합도
출현 확률
출현 자료
비출현 자료
배경 자료
환경 변수
35. 𝑦𝑦 = 𝑎𝑎𝑥𝑥 + 𝑏𝑏
환경 변수, 출현, 비출현,
배경 자료
서식처 적합도
통계 모형
Boosted Regression Tree Artificial Neural Network Maximum Entropy
선형 회귀, 기계학습, 딥러닝
36. 학습 목표
종 분포 모형의 원리와 목적을 이해한다
종 분포 모형 결과를 해석하고 올바르게 추론할 수 있다
종 분포 모형의 적합 과정에 대해서 이해한다
37. 실습 목표
• 자신이 관심있는 종을 선정하고
종 분포 모형 분석을 실시합니다.
• 분석 결과를 토대로
팀 별로
최소 2페이지 분량의
분석 보고서를 작성합니다.
38. R package
Wallace
생물지리학자 Alfred Russel Wallace의 이름을
따 만든 종 분포 모형 분석 툴
복잡한 R 코드 없이 마우스 클릭만으로 종 분포
모형을 만들고 예측, 해석할 수 있음
Kass, J.M., et. al. (2022). wallace 2: a shiny app for modeling
species niches and distributions redesigned to facilitate
expansion via module contributions. Ecography, e06547.
install.packages("wallace")
wallace::run_wallace()
39. Maximum Entropy algorithm
2004년 국제 기계학습 컨퍼런스에서 Steven J. Philips, Miroslav Dudík에 의해 처음 제시
출현 자료와 배경 자료를 사용하는 종 분포 모형 알고리즘
최대 엔트로피 이론에 기반
높은 예측 성능과 다양한 하이퍼 파라미터 조절 기능
2023년 기준 10,033회 인용(web of science 기준, Ecological modelling, 2006)
40. Maximum Entropy algorithm
기계학습 전문가로써 AT&T 연구소에서 근무하던 중,
자신의 뉴욕 아파트 근처 미국 자연사 박물관을 방문
미국 자연사 박물관의 생물다양성 센터(CBC)의 센터장과 우연히 마주침
그들의 생물 다양성 보전을 위한 노력에 감명받아
컴퓨터 과학자로써 도울 수 있는 일에 대해서 이야기하고 아이디어를 얻음
2016년 AT&T에서 알고리즘의 코드 공개를 승인
JAVA(Maxent GUI)와 R(maxnet) 방식으로 사용 가능
41.
42. 출현자료 환경변수
출현 자료
선택
배경 자료
선택 환경 분석
출현 자료
분할 모델링 시각화
모형 전이
(예측) 결과 기록
분석의 순서
복잡한 설명은 생략합니다.
핑크색 박스를 눌러서 따라오세요.
47. 선택
배경 자료 범위 선정 방법 선택
최외곽 점들을 잇는 폴리곤에서 배경 자료 수집
선택
배경자료의 수:10,000 입력
선택
폴리곤을 보다 크게:3 입력
48. 선택
비공간 출현 자료 구분 선택
교차검증 방법:Random k-fold 선택
K의 개수:5 입력
실행
49. 선택
Maxent:
최대 엔트로피 모형 선택
Maxnet 사용
하이퍼파라미터1 -피처클래스:
LQH 피처만 사용
하이퍼파라미터2 –규제 파라미터:
1 규제 파라미터만 사용
FALSE 사용
FALSE 사용
실행
50. 분석 보고서 제출 – 3월 27일 월요일까지
• 자신이 관심있는 종을 선정하고 종 분포 모형 분석을 실시합니다.
• 분석 결과를 토대로 최소 2페이지 분량의 분석 보고서를 팀 별로 작성합니다.
• 오늘 다룬 내용 말고도 wallace 패키지에 있는 여러 다른 기능들을 사용해보세요.
• 모형의 결과가 항상 정답은 아닙니다. 왜 이런 결과가 나왔는지 고민해보세요.
• 모형 해석과 예측에 주의해야할 사항을 “근거를 들어” 서술해보세요.
• 모형 분석을 함으로써 얻을 수 있는 이점을 고민해보세요.
• 모형 분석의 단점은 무엇인지 고민해보세요.
• 앞으로 모형을 개선시킨다면 어떻게 할 수 있는지 고민해보세요.
• 모형 적합 단계 중 많은 선택들이 있었습니다.
여러 선택 옵션을 조사하고 해당 옵션이 모형 결과에 미치는 영향을 서술해보세요.
Not necessary to answer all
But recommended to
include in the report
왼쪽의 내용을 보고서에
모두 담지 않아도 됩니다.
패키지를 다양하게 사용해보고
그 결과를 논리적으로 쓰면 됩니다.
51. • 사용하는 변수가 기후 변수 밖에 없으므로 기후에 민감한 종을 선택하세요.
• 최소한 100건의 출현 자료가 있는 종을 선택하세요.
• Env Space 분석을 실시하려면 여러 종을 선택해야 합니다.
• 질문이 있다면 LophitaL@snu.ac.kr 로
자세한 맥락과 에러 내용을 보내주세요.
분석 보고서 제출 – 3월 27일 월요일까지