가천대학교 학부교육 빅데이터 - 학사경고자 예측 시스템 개발

개요

  • 본 연구는 ACE 사업의 일환으로 학부교육 이슈 발굴 및 데이터를 분석하기 위해 통합 수집된 데이터를 바탕으로
    1차년도 학사경고자 예측 모델 개발, 2차년도 데이터 저장소 구축 및 학사경고자 예측 시범 서비스 제공을 목표로 함.

학사경고자 예측 시스템

  • 학사경고자는 실제 4% 미만으로, 데이터가 매우 적은 수준임.
  • 학사경고자 예측 시스템은 학기별로 학사경고를 받을 가능성이 있는 학생들을 선정하는 것을 목표로 함.
  • 개발 이후 상담 프로세스와 연계하여, 학사경고 예측자를 대상으로 상담을 실시할 예정.

연구 방법

  • 활용 데이터 : 2016년 ~ 2017년의 학사정보 데이터
전체(DB) 학사경고자(DB)
2016-01 17499 450
2016-02 16549 371
2017-01 17241 512
2017-02 16078 346
  • 데이터 전처리 -> 목적 명확화 -> Base Model 생성 -> 최종 산출물 & 자동화

    1. 데이터 전처리
    2. 재수 유무
    3. 한학기 수강학점
    4. TOEIC
    5. 휴학 / 재입학/ 제적정보
    6. 단과대학 관련 정보
    7. 도서관 예약 정보
    8. 목적 명확화
      학사경고 여부를 정확히 맞추기 보다 학사경고의 가능성이 있는 학생들을 선정하는 것에 초점을 맞춤
    9. Base Model 생성
    10. 최종 산출물 & 자동화
      데이터 전처리 및 모델 실행 후 예측 결과 파일을 내보내는 스크립트 파일 생성

분석 결과

  • 2학기 대비 1학기 예측 모델의 Recall 값이 높음
  • DT 계열 대비 Logistic Regression, SVM 등의 성능이 높음
  • 학사경고 받은 횟수, 신청학점 등이 주요 변수로 작용함
  • 학점 2.0 미만 학생을 관리하는 등 상담보다는 사전 대응이 더 중요할 것으로 판단됨

< 2016-1학기 재학생 대상 학사경고자 예측모델 적용 결과 >

precision recall f1-score (학사경고자 / 전체 학생)
train 0.80 0.95 0.87 143 / 863
2016-01 0.05 0.82 0.09 450 / 17499
2016-02 0.07 0.56 0.13 371 / 16549
2017-01 0.06 0.90 0.12 512 / 17241
2017-02 0.07 0.60 0.12 334 / 16078

< 2016-2학기 재학생 대상 학사경고자 예측모델 적용 결과 >

precision recall f1-score (학사경고자 / 전체 학생)
train 0.78 0.97 0.86 149 / 869
2016-01 0.05 0.80 0.09 450 / 17499
2016-02 0.08 0.57 0.13 371 / 16549
2017-01 0.06 0.89 0.12 512 / 17241
2017-02 0.07 0.60 0.13 334 / 16078

< 주요 변수 >

주요 변수 설명
이수학기 학생이 이수한 학기 수가 낮을수록 학사경고를 받을 확률이 증가함
현역(0)/재수(1) 현역으로 대학 입학 시 재수한 학생보다 학사경고 확률 약간 더 높음
일반휴학(개인사정) 개인사정으로 일반휴학 신청한 횟수가 적을수록 학사경고 약간 더 높음
현재학기 수강교과목 수 수강교과목 수가 7~8개일 때 학사경고 확률 가장 높음
성적 백분율 이전학기 백분율 점수가 20~70점 사이일 때,
특히 40~70점 사이일 때 학사경고 확률 가장 높음
성적 평점 이전학기 평균 학점이 2점 이하일 때 학사경고 받을 확률 가장 높음