소개
들쭉날쭉 여론조사, 민심의 흐름은 어디에 있을까?
선거철이 되면 여론조사가 넘쳐납니다. 그런데 이상하죠? 조사마다 지지율이 다르고, 때로는 같은 날 진행된 조사인데도 결과가 차이가 나기도 합니다. 어떤 조사에서는 지지율이 40%대인데 다른 조사에서는 30%대로 나타나기도 합니다. 도대체 어느 조사가 맞는 걸까요?
그래서 <예측! 6.3대선>은 여론조사를 조사했습니다.
미국의 ‘FiveThirtyEight’, 영국의 ‘The Economist’처럼 여러 여론조사 결과를 하나로 모아, 실제 민심에 가장 가까운 값을 찾아주는 서비스입니다.
매일 정오, 중앙선관위에 공개된 모든 여론조사를 모아 가장 가능성 높은 지지율을 예측합니다.
이것이 가능한 이유는 단순합니다. 모든 조사는 다르지만, 민심은 하나니까요.
<예측! 6.3대선>은 베이지안 추론과 상태공간모형에 근거하여 개발되었습니다. 여론조사 결과와 조사기관 편향, 대결 구도, 조사 방법, 후보 간 지지율 상관관계 등을 고려하여 현재의 지지율을 예측하는 모델인데 다소 전문적 내용이니 조금더 쉽게 설명드리겠습니다.
핵심은 두 가지입니다1. 조사기관의 ‘성향’을 반영합니다
같은 과목의 시험이라도 출제자가 누구냐에 따라 난이도나 스타일이 달라지죠. 어떤 선생님은 암기 위주로, 어떤 선생님은 응용문제를 좋아합니다. 그래서 같은 실력을 가진 학생도 어떤 시험을 보느냐에 따라 점수가 달라질 수 있습니다.
여론조사도 똑같습니다. 조사기관마다 조사 방식이나 문항 구성 방식이 달라서, 같은 시기의 조사라도 결과가 달라질 수 있습니다. 기관마다 질문 구성도 다르고, 사용하는 조사 방식도 다릅니다.
<예측! 6.3대선>은 각 조사기관의 이런 '출제 스타일'을 분석해서 보정합니다. 출제자의 성향을 고려해 학생의 진짜 실력을 평가하듯, 조사기관의 성향을 반영해 실제 지지율을 추정하는 겁니다.
2. 여론의 ‘추세’를 추적합니다여론은 매일 조금씩 바뀝니다. 갑자기 확 뒤집히는 경우도 있지만, 대부분은 서서히 움직이죠. 마치 구름이 하늘을 천천히 흘러가는 것처럼, 순간적으로는 방향이 예측되지 않아도 전체 흐름을 보면 일정한 방향성이 있습니다.
<예측! 6.3대선>은 바로 이 흐름을 수학적으로 추적합니다. 어제의 지지율이 오늘의 지지율에 영향을 주고, 내일도 또 그렇게 이어집니다. 여론은 시계열처럼 움직이기 때문에, 과거 데이터를 많이 모으면 민심의 흐름을 읽을 수 있습니다.
결국, 코스피처럼 종합합니다각 여론조사 결과가 개별 종목 주가라면, <예측! 6.3대선>이 제시하는 값은 여론판의 코스피 지수입니다. 어떤 조사에선 1번 후보가 오르고, 또 다른 조사에선 2번 후보가 오르더라도, 전체 흐름은 하나의 방향을 갖습니다.
모델은 계속 진화 중입니다이 서비스는 단순한 평균값이 아닙니다. 제3후보가 있는 경우, 부동층이 많은 경우, 각 후보의 지지율이 서로 영향을 줄 때 등, 현실적인 선거 구도를 반영하는 복잡한 수학적 모델로 작동합니다. 베이지안 추론과 상태공간모형이라는 통계적 기법을 활용해, 모델을 개선하며 예측의 신뢰도를 점점 높여갈 예정입니다.
그래서, 믿을 수 있나요?여론조사는 원래 오차가 있는 도구입니다. 하지만, 많은 데이터를 모아 분석하면 오차의 방향을 이해할 수 있습니다. <예측! 6.3대선>은 그 방향을 추적하고, 수치화하고, 시각적으로 보여주는 새로운 시도입니다.
당신이 궁금했던 "진짜 민심", 여기에 있습니다.
모델의 주요 특징 및 변수
모델 주요 특징
<예측! 6.3대선>의 모델은 다음과 같은 특징이 있습니다.
상태공간모형 + 베이지안 추론- 개별 여론조사의 편향을 고려해 현 지지율을 추정하는 상태공간모형과, 이전 결과를 통해 현재와 미래를 예측하는 베이지안 추론을 결합해 사용했습니다.
다자 후보 동시 추정 모형
- 개별 후보마다 지지율을 추정하는 다른 모형과 달리, 여러 후보의 지지율을 동시에 추정합니다.
- 이러한 방식은 제3후보가 항상 등장하는 우리나라의 대선 결과를 추정하는데 적합합니다. 또한, 각 후보 간 지지율의 복잡한 상관관계도 반영할 수 있습니다.
‘응답유보층’ 반영
- 기존 선거 결과를 크게 좌우했던 ‘응답유보층’을 다자 후보 모형에 추가해, 추정 정확도를 높이고자 합니다.
여론조사 편향 반영
- 여론조사 결과에 영향을 줄 수 있는 개별 여론조사의 특징을 정리하고, 영향력을 고려해 모델에 포함했습니다.
상태공간모형(State-Space Model)이란?
상태공간모형은 관측할 수 없는 ‘숨겨진 상태’(Hidden State)를 시계열적으로 추정하는 모델입니다. 이 모델은 시간이 지나면서 변화하는 변수, 후보별 지지율을 동적으로 추적하는 데 적합하며, 특히 불확실성을 반영하면서 지속적으로 학습할 수 있다는 점에서 강력한 도구입니다.
실생활 예시로 한 번 알아볼까요?
실생활 예시: 학생부종합전형대학교에서 신입생을 선발하는 기준은 학생의 잠재적인 학습 능력입니다. 이는 직접적으로 정확히 측정하기 어렵기 때문에, 학생부종합전형을 통해 학생부를 중심으로 학생의 학업성취도, 환경, 전공에 대한 소질 및 잠재력을 종합 평가하곤 합니다.
특히, 고등학교 생활 내내 축적된 정보를 통해 학생의 잠재적인 학습 능력을 좀 더 정확하게 예측할 수 있다는 점이 전형 도입의 한 이유가 되었습니다.
여기서,
- 관측 가능한 정보(Observation)는 학생부에 기록된 학업성취도, 진로활동, 동아리활동 등입니다.
- 직접 측정할 수 없는 숨겨진 상태(Hidden State)는 학생의 잠재적인 학습 능력입니다.
- 대학교에서는 학생부에 기록된 고등학교 생활을 종합적으로 평가해, 학생의 잠재력을 추정하고, 이를 통해 신입생을 선발합니다. 성적이 꾸준히 오르거나 활동이 점차 활발해졌다면, 학생의 잠재력은 더 높이 평가되겠죠?
여론조사에서도 동일한 원리가 적용됩니다. 실제 지지율은 직접적으로 측정할 수 없지만, 여론조사 결과를 통해 간접적으로 추정할 수 있습니다.
여론조사에서는,
- 관측 가능한 정보(Observation)는 개별 여론조사에서 조사된 후보별 지지율입니다.
- 직접 측정할 수 없는 숨겨진 상태(Hidden State)는 후보의 현재 실제 지지율입니다.
- 우리 모델에서는 이전 시점을 포함한 여러 여론조사 결과를 종합해, 후보의 현재 지지율을 추정합니다.
- 물론 여론조사는 과학적인 표본조사 방법론에 따라 실시되어 통계적 대표성을 지닙니다.
- 본 모델에서는 상태공간모형을 통해 여러 조사 결과를 종합함으로써, 후보의 현 실제 지지율을 보다 정확하게 추정하려는 것입니다.
상태공간모형은 크게 상태 방정식과 관측 방정식으로 이루어져 있습니다.
상태 방정식은 시간에 따라 실제 지지율이 어떻게 변화하는지를 시뮬레이션하고, 관측 방정식은 실제 지지율이 어떤 영향을 받아 여론조사 응답 결과와 차이가 생기는 지 설명합니다.
상태(State) 방정식: 다변량 랜덤워크우리 모델에서는 후보들의 지지율이 시간에 따라 어떻게 변화하는지 설명하기 위해 다변량 랜덤워크(Random Walk)를 활용합니다.
랜덤워크는 특정 값이 이전 값에서 일정한 방향 없이, 확률적으로 변동하며 움직이는 과정을 의미합니다.
예를 들어 동전을 던져 앞면이 나오면 1을 더하고, 뒷면이 나오면 1을 빼는 게임을 생각해보면 됩니다.
동전을 여러 번 던져 게임을 반복하게 되면 값은 특정한 방향 없이 무작위로 변하게 됩니다.
즉, 각 단계의 움직임은 이전의 위치에 의존하지만, 다음 방향은 무작위(확률적)로 결정됩니다.
마찬가지로 본 모델에서 각 후보의 지지율 상태 또한 이전 시점의 지지율 상태에서 일정한 규칙 없이 확률적으로 변합니다. 이를 통해 후보들의 지지율이 장기적으로 특정한 추세를 보일 수 있지만, 매 시점마다 나타나는 지지율 변화는 일정한 방향 없이 무작위로 움직인다는 점을 반영합니다.
특히 여러 후보의 지지율을 동시에 모델링하는 다변량 랜덤워크로, 한 후보의 지지율이 오를 때 다른 후보의 지지율이 내려가는 것과 같은 복잡한 상관관계도 함께 고려합니다.
이러한 방식은 현실의 선거 지지율 변화 양상과 매우 유사하며, 각 후보 간의 상호관계도 잘 표현할 수 있는 장점이 있습니다.
관측(Observation) 방정식여론조사는 각 후보를 지지한 응답자의 수를 관측하는 과정입니다. 하지만, 개별 여론조사는 여러가지 편향에 의해 영향을 받습니다. 관측 방정식은 이러한 개별 여론조사의 편향을 고려하여 반영하는 역할을 합니다.
본 모델에서 개별 여론조사에 영향을 줄 것으로 고려해 변수로 정한 항목은 다음과 같습니다.
- 여론조사 기관마다 특정 후보에게 더 유리하거나 불리한 경향이 있을 수 있습니다. 특히 국내 여론조사 환경에서는 기관에 따라 조사방법(ARS, 전화면접 등)이 정해져 있기 때문에, 조사방법으로 인한 편향도 조사기관 효과를 통해 반영할 수 있습니다.
문항 효과
- 같은 후보를 두고도 질문 방식이 다르면 결과가 달라질 수 있습니다.
- 예를 들어 후보 A의 지지율이 양자 대결 문항과 다자 대결 문항에서 다를 수 있습니다.
그 외에, 동일기관에서 다량(횟수, 표본수 등)의 조사를 실시한 경우, 해당 기관 조사의 결과가 지나치게 큰 영향력을 미칠 수 있다는 점도 고려하였습니다.
베이지안 추론
베이지안 추론은 초기 정보(사전 확률, Prior)를 기반으로, 새로운 데이터(새로운 여론조사 결과)가 들어올 때마다 이를 업데이트(사후 확률, Posterior)하여 점진적으로 더 정확한 예측을 수행하는 방법입니다.
본 모델에서도 여론 변화 추세를 반영하기 위해 사용하고 있습니다.
이러한 개념은 기계학습 및 인공지능 분야에서도 널리 활용됩니다.
베이지안 추론 활용 예시
- 베이지안 필터
스팸 메일을 걸러낼 때, 단어나 문장의 패턴이 스팸일 가능성을 지속적으로 업데이트 하는 방식
- 베이지안 최적화
하이퍼파라미터 튜닝에서 가장 적절한 모델 구성을 찾는 방법
하이퍼파라미터 튜닝이란?
모델의 성능을 최적화하기 위해 미리 정해야 하는 설정값을 조정하는 과정으로, 신경망에서 학습률이나 은닉층의 개수를 조정하는 것 등
- 확률적 그래픽 모델
머신 러닝에서 데이터 간 관계를 확률적으로 모델링하는 기법
본 모델은 이러한 베이지안 추론을 활용하여, 지지율 예측을 지속적으로 업데이트하며 점진적으로 추정의 신뢰성을 높이는 과정을 수행합니다.
참고 정보모델링 개발 및 운영

여론조사 추정 모델링 자문
고려대학교 통계학과 박민규 교수
한국통계학회 부회장(현), 한국조사연구학회 부회장(현), KBS/SBS 선거방송 여론조사 자문위원(현)
관련문의 : survey@goodsti.com