[생활] 교묘한 데이터 조작, 벤포드 법칙은 못 속인다!

  • 확대
  • 축소
사상 최악의 데이터 조작 사건이 서울의 한 중학교에서 일어났습니다. 중학교 2학년 학생 200명이 수학 시간에 과제로 내준 설문조사의 데이터를 조작한 것입니다. 대체 어떻게 된 걸까요? 이 사건을 조 기자가 취재했습니다.

2014년 2월 9일 월요일, ◯◯중학교 수학 교사 김 모 씨는 중학교 2학년 수학 시간에 설문조사 과제를 내 줬습니다. 길에서 만난 100명에게 한 달 수입이 얼마나 되는지 물어보고, 통계 보고서를 작성하라는 겁니다. 이어서 김 교사는 100명을 만나서 물어보기 귀찮다면 데이터를 지어내서 보고서를 작성해도 좋다고 지시했습니다. 단 이 사실을 절대 다른 사람에게 들키지 말라고 경고했죠. 만약 들키면 이번 과제 점수는 0점이라고 말했습니다. 문제는 데이터를 지어내도 된다는 교사의 말에 대부분의 학생이 데이터를 조작하기로 결심했다는 점입니다.

말이 쉽지 100명의 수입을 일일이 조사한다는 게 쉽지 않잖아요. 중학생이 와서 다짜고짜 얼마 버냐고 물어본다고 생각해 보세요. 누가 그 질문에 답을 해 주겠어요. 그리고 선생님이 데이터를 지어내도 된다고 하셨잖아요. 신이 아닌 이상 제가 데이터를 조작한 걸 어떻게 아시겠어요. 당연히 100명을 조사한 것처럼 꾸며냈죠.

결국 중학교 2학년 250명 중 200명이 설문조사를 직접 하지 않고 데이터를 지어내서 보고서를 작성했습니다. 그런데 놀랍게도 김 교사는 누가 데이터를 조작했는지 모두 가려냈습니다.

대부분의 사람들은 각각의 숫자가 나타날 확률이 같다고 생각합니다. 그래서 3이 10번 등장하면 5도 10번에 가깝게 나오도록 만들죠. 하지만 실제 데이터는 그렇지 않거든요. 결국 데이터를 신빙성 있게 조작할 수가 없는 거죠.
전 조작한 학생 모두에게 0점을 줄 겁니다. 이번 일을 계기로 다시는 데이터 조작을 하지 않을 테니까요. 또 벤포드 법칙을 죽을 때까지 까먹지 않을 거고요. 제가 데이터 조작을 알아낼 수 있었던 비결이 바로 이 법칙이거든요.

데이터 조작을 단번에 잡아낸다니, 벤포드 법칙은 과연 어떤 수학 이론일까요?

실험데이터 조작, 벤포드 법칙은 알고 있다!

미국의 수학자 티어도어 힐 교수는 미국 조지아공대 학생들에게 동전을 200번 던져서 나오는 면을 순서대로 기록하든가 아니면 실험을 실제로 한 것처럼 데이터를 꾸며내 결과를 제출하라고 했다. 그러자 많은 학생들이 데이터를 조작했고, 힐 교수는 벤포드 법칙을 이용해 데이터를 조작한 학생들을 쉽게 밝혀냈다.

숫자데이터는 1로 시작하는 수를 좋아해

벤포드 법칙을 간단히 요약하면 ‘10진수로 이루어진 데이터 값에서 첫 자리는 1인 경우가 많다’는 것이다. 미국의 천체물리학자 사이먼 뉴컴이 1881년 로그표를 보다가 앞쪽이 뒤쪽보다 훨씬 낡은 것을 보고 알아 냈다. 이는 사람들이 1, 2, 또는 3으로 시작하는 수를 7, 8, 또는 9로 시작하는 수보다 자주 계산했다는 것이다.

그렇다면 대체 1이라는 숫자는 뭐가 특별하기에 자주 쓰인 걸까? 예를 들어 은행에 연이율 10%로 100만 원을 15년 간 예금한다고 가정해 보자. 그러면 통장에 찍히는 숫자는 오른쪽 표와 같다. 첫 자릿수로 1이 다른 수보다 많이 나온다는 것을 알 수 있다.

그런데 처음에 100만 원으로 시작해서 또는 연이율을 10%로 해서 이런 결과가 나왔다고 의심할 수 있다. 그러나 아무 수나 가지고 계산을 해도 다른 수보다 1이 훨씬 많이 나온다. 700만 원씩 예금해도 마찬가지다.

1938년 미국의 물리학자 프랭크 벤포드는 다양한 분야에서 이런 결과를 확인했다. 그는 세계 곳곳에 있는 강 335개의 넓이와 물리 상수 104가지, 분자 질량 1800가지 등 20개 분야의 데이터를 분석해 첫 자릿수의 빈도와 각각의 숫자가 나올 확률을 계산했다.
 
그 결과 1이 나올 확률이 30.1%로 가장 높았고, 2가 17.61%. 3이 12.49%, 4가 9.69%, 5가 7.92%로 숫자가 커질수록 수가 등장할 확률이 점점 줄어들었다.

회계 장부 조작, 벤포드 법칙은 알고 있다

뉴컴과 벤포드의 발견은 아는 사람도 몇 명 없었고, 단순한 호기심거리에 불과했다. 하지만 2001년 미국 수학자 마크 니그리니가 당시 미국에서 가장 혁신적인 기업으로 손꼽히던 ‘엔론’이 회계 장부를 조작했다는 사실을 벤포드 법칙으로 밝혀내면서 단숨에 유명해졌다.

니그리니 교수는 회계 장부에 나타난 첫 자릿수 숫자의 빈도를 구한 뒤 벤포드 법칙과 비교했다. 그러자 첫 자리에 1이 나오는 경우는 매우 드물었고, 7, 8, 9가 너무 많았다. 그는 장부 조작을 의심했고 회계 감사팀에 보고해 본격적으로 조사했다. 그 결과 회계 장부가 조작으로 밝혀지면서, 엔론은 파산하고 말았다. 이를 계기로 미국에서는 회계와 세무를 벤포드 법칙으로 검사하는 일명 ‘벤포드 검사법’이 생겼다.

2009년에는 프랑스의 수학자 부드아인 루케마가 이란 대통령 선거가 조작됐다고 발표해 화제가 되기도 했다. 그는 선거가 끝나고 얼마 뒤 선거 결과를 벤포드 법칙으로 분석했다. 그 결과 한 후보자의 표가 조작된 흔적이있다고 주장했다. 하지만 이 사건은 아직까지도 정확하게 밝혀지지 않았다.

이처럼 데이터 조작을 밝혀낼 수 있는 건 많은 데이터가 벤포드 법칙을 따르기 때문이다. 주식 가격, 예상 기온, 인구수, 선거 결과, 유전체 데이터, 피보나치 수열, 2의 거듭제곱 수 등 무수히 많다.

의심 많은 기자는 실제로 벤포드 법칙을 직접 확인하기 위해 2014년 프로야구에서 맹활약을 펼친 56명의 선수 기록을 분석해 봤다. 경기 수, 득점, 안타, 홈런 등 14개 기록에서 첫 자릿수 숫자의 빈도를 따져 벤포드 법칙과 비교해 본 것이다. 그 결과 놀랍게도 벤포드 법칙과 거의 일치했다.
 
시험점수는 벤포드 법칙 안 따른다

그런데 사람의 키나 IQ 분포와 같은 데이터는 벤포드 법칙을 따르지 않는다. 성인의 키와 IQ는 대부분 1로 시작한다. 그렇다면 대체 어떤 숫자데이터에 벤포드 법칙이 나타나고, 나타나지 않는 걸까?

로또 복권처럼 각각의 숫자가 나올 확률이 같은 균일분포를 따르는 데이터는 벤포드 법칙을 따르지 않는다. 시험 점수와 같이 평균을 중심으로 종 모양을 나타내는 데이터, 즉 정규분포를 따르는 데이터도 마찬가지다. 하지만 균일분포와 정규분포가 섞여 있는 데이터에서는 벤포드 법칙이 성립한다. 또 10진수가 아닌 다른 진수로 이뤄진 숫자데이터와 확률데이터, 통계 분석이 된 정보에서도 벤포드 법칙을 찾을 수 있다.

한 중학교에서 벌어진 사상 최악의 데이터 조작 사건은 학생들의 반성으로 일단락됐습니다. 하지만 사회 곳곳에는 자신의 이익을 위해 데이터를 조작하는 사건이 아직도 많이 일어나고 있습니다. 이를 막는 데 벤포드 법칙이 어떤 역할을 할 지 앞으로 지켜봐 주시기 바랍니다.

글 : 조가현 기자 gahyun@donga.com
글 : 홍승표
사진 : 동아일보
사진 : 포토파크닷컴
기타 : <수학시트콤>
수학동아 2015년 02호


위로