학생들의 온라인 수업 성적 예측 모델 구축
프로젝트 개요
코로나 19 상황 속에서 온라인 수업에 대한 연구가 폭발적으로 증가했습니다. 팬데믹 동안 학생들의 교육 대부분이 온라인으로 이루어졌고, 이는 온라인 수업의 질을 개선시키기 위한 계기가 되었습니다. 교육학 전문가들은 학생들의 학업성취도를 높이는 가장 효과적인 방법 중 하나가 학습평가 방식의 개혁이라고 밝혔습니다. 그러하여 이 프로젝트는 학생의 온라인 수업 행태를 기반으로 학업 성취도를 예측하는 모델을 개발하는 것을 목표로 합니다. 온라인 수업에 대한 수강생, 강좌, 강사 등을 포함한 위한 대규모 오픈 데이터 저장소인 MOCCube를 사용하였으며, k-means clutring, fuzzy logic 및 multi-regression 알고리즘을 이용했습니다.
Objectives
학생들의 온라인 학습 행태를 기반으로 학업 성취도 예측 모델 개발
-
K-means clustering을 적용하여 학생들의 온라인 학습 행동 분류
-
학습 행동을 관한 규칙에 따라 학업성취도를 예측하기 위한 fuzzy 추론 시스템 설계
-
fuzzy 로직 시스템과 multi-regression 모델의 학생 학업성취도 예측 성능 비교
Data Preparation
MOOCube는 수업 706강, 비디오 38,181개, 개념 114,563개, 사용자 199,199명에 대한 데이터를 가지고 있습니다.
WHAT
MOOCube에 포함되어 있는 700강, 38K개의 비디오, 114K개의 개념, 199K 명의 사용자, 지식그래프 또는 학술지와 같은 복합 데이터 중에서, 아래 네개의 온라인 학습 행동을 추출했습니다.
-
the average watching count: 학생이 특정 강의를 열어보는 횟수
-
the average completion percentage: 한 강의를 끝내는데 걸리는 평균 시간
-
courses count: 학생이 수강등록한 강의 갯수
-
average enroll time: 학생이 수강등록을 한 시간
HOW
user id는 각 데이터를 지정하는 primary key 역할을 합니다. 'user.json' 파일에는 199,199개의 user ids가 있고, 'user video act.json'에는 8,640개의 user ids가 있음을 확인했습니다. Inner join을 이용하여 'user.json'과 'user video act.json' 두 파일에 공통으로 저장되어 있는 48,640개의 유저 기록을 추출했습니다. ‘user video act.json’ 파일의 데이터 속에서 두개의 온라인 행동 특징 (average watching count, average completion percentage)을 찾아 적재하고, 다른 두개의 온라인 행동 특징 (courses count, average enroll time)은 'user.json'에서 찾아 저장합니다.

MOOCube에는 학생들의 성적 데이터가 포함되어 있지 않기 때문에, 예측 모델 개발 및 훈련을 위해서 성적을 randomly assign 해야했습니다. random 성적들은 다음과 같은 방식으로 결정되었습니다: 먼저 min-max 방식을 이용하여 네개의 온라인 행동들을 정규화 (normalize) 시킨 후 모두 더합니다. 이후 이 숫자들에 100을 곱하여 scale up 시킨 후 학생들의 최저 점수가 50이라고 가정할 수 있도록 50 을 더합니다. 이 random 성적들을 포함한 학생별 네개의 온라인 행동들에 대한 데이터를 'master data.csv'로 따로 저장합니다 (Table 1).

Table 1
Multiple Regression Model

Diagram 1
온라인 수업을 이수한 퍼센트 (the average completion rate)이 성적에 가장 큰 영향을 줍니다.
이 프로젝트는 네가지 온라인 학습 행태가 서로 긴밀하고 선형적으로 연관되어 있다고 가정합니다. 다중 회귀 모델 (multi-regression)은 위 Diagram 1에서 볼 수 있듯이 네 가지 온라인 학습 행태를 동시에 취합하여 성적을 예측합니다. 학생의 학업 성취도를 예측하기 위한 다중 회귀 모델을 훈련시켜본 결과, 네 가지 매개변수 모두 학업 성취도와 양의 상관관계 (positive correlation)이 있음을 알 수 있었습니다. 결과는 다음과 같이 요약됩니다:
-
영상을 1초 더 볼 경우, 성적이 0.191만큼 증가
-
영상을 1% 더 많이 보았을 경우, 성적이 1.215만큼 증가
-
1개의 수업을 더 신청한 학생의 경우, 성적이 0.160만큼 증가
-
수강신청을 1시간 더 늦게할 경우, 성적이 1.087만큼 증가
네 가지 온라인 학습 행태 중에서 온라인 수업 이수 퍼센트 (average completion rate)가 학업 성취도에 가장 큰 영향을 주는 것으로 나타났습니다.
정확도 99.9%, 백분율 오차 5.11%
다음과 같은 온라인 학습 행태를 가진 학생이 있다고 가정해보면,
온라인 강의 평균 5.8회 시청
온라인 강의 평균 61.67% 이수
평균적으로 오후 3시에 평균 4개의 수업을 등록
다중 회귀 모델은 위 학생의 성적을 64.5로 예측합니다. 사실 이 학생은 master_data.csv의 마지막 학생이였으며 train data 에서 제외되었던 학생입니다. 이 학생에게 randomly assigned 되었던 성적은 67.97 였습니다. 즉 다중 회귀 모델은 정확도 (R2 스코어)가 99.99%, 백분율 오차가 5.11%인 성능을 가지고 있습니다.
Fuzzy Model
Model Architecture
이 프로젝트의 Fuzzy 모델은 한번에 두가지 온라인 학습 행태만 분석합니다. 따라서 네가지 온라인 행태를 모두 분석하기 위해 두 개의 퍼지 모델이 개발되었습니다. 퍼지모델 1은 강의 시청에 대한 온라인 학습 행동들 (average video watching cound & average video completion rate)을 선택하였고 퍼지 모델 2는 수강신청 습관 (course count & average enrollment time)을 선택하였습니다. Diagram 2는 퍼지모델 1의 구조를 보여줍니다.

Diagram 2
K-means Clustering
K-means 클러스터링은 Fuzzy 시스테ㅁ에서 학생들의 학업성취도를 몇단계로 등급화 해야하는지 결정하기 위해 활용되었습니다. 결과적으로 4단계로 성적을 분류하기로 하였으며 Chart 1은 퍼지모델1의 클러스터를, Chart 2는 퍼지모델 2에 대한 클러스터를 보여줍니다.


Chart 1
Chart 2
Fuzzy Rules


Table 2


Table 3
백분율 에러 3.66%
다중 회귀 모델을 테스트했던 학생의 데이터를 퍼지모델 테스트에도 이용했습니다.
퍼지모델1에 따르면 이 학생의 강의 시청 습관은 Chart 3에서 볼 수 있듯이 평균 성적이 57.34일 것으로 예측됩니다. 퍼지모델2는 이 학생의 수강 신청 습관을 미루어 보아 평균 성적이 73.62 일 것으로 예측했습니다. 두 개의 성적의 평균값은 65.48 입니다. 앞서 언급했듯이, 이 학생의 randomly assigned 성적은 67.97 였습니다. 즉 퍼지모델의 백분율 오류는 3.66%로 다중 회귀 모델의 백분율 오차 (5.11%)보다 작습니다.

Chart 3

Chart 4
Limitation
무작위 할당된 성적
MOOCube 가 학생들의 성적을 제공하고 있지 않기 때문에 이 프로젝트는 학생들이 온라인 행동 관련 데이터를 정규화 시킨 결과로 만들어진 random 성적을 부여했습니다. 실제 성적을 기반으로 훈련된 예측 모델이 아니기 때문에 성능이 비교적 많이 부족합니다.
온라인 행동의 높은 예측불가능성
임의로 정해진 학생들의 성적과 더불어 이 프로젝트의 또다른 limitation은 학생들의 온라인 학습 행동에 영향을 끼칠 수 있는 예측불가능한 변수들을 배제했다는 점입니다. 대면 수업과 달리, 온라인 수업의 경우 학생들이 학습 행동을 통제하기가 거의 불가능합니다. 예를 들어, 어떤 학생이 완벽한 온라인 강의 수강률을 가지고 있다고 해도, 이 학생이 강의 비디오에 완전히 집중하여 들었는지, 그저 틀어놓기만 했는지 알기가 어렵기 때문에 이를 바탕으로 학생의 학업성취도를 예측하는 것에 는 큰 어려움이 있습니다. 그럼에도 불구하고 이 프로젝트는 로그 데이터로 기록된 학생들의 온라인 학습 행동이 실제 학습 행동과 완벽히 일치할 것이라는 가정을 하고 있기때문에, 이 프로젝트에서 개발 및 훈련된 학업성취도 예측 모델은 오류를 발생시킬 확률이 높습니다.