2. 2
• Discrete automated production lines
• 운송 유닛과 제조 유닛이 전부 존재하는 문제
• 공정은 m개의 제조 유닛과 1개의 운송 유닛으로 구성됨
• Processing time이 확률적으로 발생함
• 운송 시간은 제품의 출발 위치와 도착 위치에 기반하여 계산됨
• 운송 유닛의 위치는 무시함
• Offline global scheduling 불가능 Online RL 스케줄링 기법 제안함
6. • 모델 pseudo code
6
Action, reward 계산
Action이 feasible 할 경우:
- 운송 시간 계산하여 현재시간 업데이트, Next state 업데이트
- event new: Action을 통해 운송된 공정의 완료시간에서 Environment 관측
event new 관측 시간 = 현재 시간 + 운송 시간 + 공정 시간
대기를 제외한 모든 Action:
- event null: 현재 시간의 Environment 관측
event null 관측 시간 = 현재 시간
상위 Event 실행 (Event는 관측 시간의 오름차순으로 정렬됨)
Next state 재계산, 현재 시간 재계산
Replay memory 저장
7. • Infeasible action 처리
• Infeasible action이 선택된 경우 reward penalty 발생
• event null 발생을 통해 Environment는 아무 변화 없음
• 따라서, Infeasible action에 대한 Next state는 현재 State와 동일함
• Feasible action을 선택할 때 까지 계속하여 Action 실행함
• Reference
• https://www.tandfonline.com/doi/citedby/10.1080/00207543.2020.1717008?scroll=top&needAccess=true
7