변호사 시험 붙은 챗GPT가 수능 봤더니...영어는 2등급, 수학은 낙제?

입력
2023.02.06 16:00
수정
2023.02.06 16:03
구독

챗GPT에 2023 수능 문제 입력했더니
영어 듣기, 의미 추론 등 고난도 문제 척척
수학은 최저 9등급 수모…두 자리 곱셈도 틀려
기계학습 방식 때문…"다음 버전에선 개선될 것"

게티이미지뱅크

게티이미지뱅크


미국 의사면허·경영대학원(MBA)·로스쿨 시험에 합격한 오픈AI의 생성 인공지능(AI) 서비스 '챗GPT'가 2023학년도 수학능력시험을 본다면 어떤 결과가 나올까. 챗GPT는 영어는 2등급 성적을 받았지만, 수리영역은 대부분 문제에서 틀린 답을 내면서 9등급을 받은 것으로 나타났다.

전문 시험평가 및 기술검증 기업 애나와 연세대 인공지능대학 김시호 교수 연구팀이 챗GPT에 수능 문제를 입력해 이 같은 결과를 확인했다고 6일 밝혔다. 이들은 그림이 포함돼 입력이 불가능한 경우를 빼고 수능 문항 전체를 입력하고 답을 확인하는 방식으로 시험을 진행했다.

영어 수능 시험에서 듣기 평가는 16개 문제 중 14개, 독해 평가는 17개 문제 중 13개를 맞혀 합산 점수 82점을 땄다. 수능 2등급 수준의 능력이라고 한다. 문단에 담긴 의미 추론, 요지 파악, 글의 목적과 주제 파악 등 난도가 높은 문제에서는 모두 정답을 맞혔다.

반면 수학 시험에서는 결과가 딴판이었다. 공통 과목 분야에서는 20개 중 여섯 문제의 정답을 냈지만 확률과 통계, 미적분학, 기하 분야 문제는 전부 오답을 뽑았다. 17점을 얻어 최저 등급인 9등급을 받았다.



"언어 기반의 개발 방식…딱 떨어지는 숫자에 약해"

수능 영어 문제에 정답을 제시한 챗GPT. 애나 제공

수능 영어 문제에 정답을 제시한 챗GPT. 애나 제공


이처럼 언어 부문에서는 강점을 보이는 챗GPT가 수학 능력이 눈에 띄게 떨어지는 이유는 무엇일까. 챗GPT가 언어를 바탕으로 한 기계학습(머신러닝)에 안성맞춤으로 만들어졌기 때문이다.

챗GPT는 '인간 사용자 피드백 기반 강화학습(Reinforcement Learning from Human Feedback, RLHF)'이란 기술을 활용했다. 강화학습이란 시행착오를 반복하면서 AI가 작업 수행 방법을 스스로 공부하는 기술을 말한다. 개발자는 챗GPT가 제시한 여러 개의 답안을 보고, 점수를 매긴다. 사용자가 판단하기 좋은 응답으로 분류되면 높은 점수라는 '보상'을 주고, 유해한 텍스트를 만들어내면 낮은 점수라는 '처벌'을 내린다. 이 과정을 여러 차례 거치면 챗GPT가 사용자가 어떤 유형의 대답을 선호하는지 알아차린다. 진짜 글자 하나하나를 이해하는 것이 아니라 경험과 통계를 바탕으로 어떤 답안을 내야 높은 점수를 얻을 수 있는지 알게 된 것이다.

이 기술은 AI가 사람이 던진 질문의 핵심을 파악하고 맞는 답안을 제시하는 능력을 갖추는 데는 적절하지만 수학처럼 딱 하나의 숫자로 떨어지는 답을 뽑아내는 데는 한계가 있다. 실제 챗GPT의 연산 능력은 한 자리 숫자의 곱셈 정도는 풀지만 두 자리 숫자의 곱셈에선 틀린 답을 낼 정도로 정확도가 떨어진다.

다만 AI 학계나 기업에서는 이런 문제를 알고 관련 연구를 빠르게 진행 중이다. 이상호 애나 최고기술경영자(CTO)는 "챗GPT는 문장에 대한 요약, 추론 등에 대해서는 매우 뛰어난 능력을 보이고 있으며 이런 요약, 추론 기능을 활용해 응용할 수 있는 서비스가 무궁무진할 것"이라며 "현재 기술 개발 속도를 감안하면 오픈AI가 현재 개발 중인 GPT4에서는 수학에서도 좋은 성적을 거둘 수 있을 것으로 본다"고 말했다.

안하늘 기자

관련 이슈태그

댓글 0

0 / 250
첫번째 댓글을 남겨주세요.
중복 선택 불가 안내

이미 공감 표현을 선택하신
기사입니다. 변경을 원하시면 취소
후 다시 선택해주세요.

기사가 저장 되었습니다.
기사 저장이 취소되었습니다.