본문 바로가기
호기심은 괭이를 죽인다

캐시 오닐, 대량살상 수학무기

by 리엘란 2018. 10. 10.

* 읽기 전에 기대했던 것

빅데이터 까는 글이래. 두근두근


* 책 내용

-WMD(weapins of Math Destruction): 대량살상무기(Weapons of Mass Destruction) 를 응용한 조어, 번역은 대량살상수학무기


- 좋은 모형: 작가는 야구 모형과 농구 선발 드래프트 모형, 신용평가점수를 예로 들고 있다. 투명하고, 지속적으로 자료가 추가되며, 가정과 결론이 모든 사람에게 명백히 공개된다. 대리 데이터가 아니라 실제 경기에서 생성된 통계 자료를 기반으로 한다. 모형화의 대상이 되는 당사자들이 그 과정을 이해하고, 공통의 목표를 공유한다. 모형을 이용해 잘못된 결론을 내렸을 때, 피드백을 받아 수정한다.


- WMD들: 모형이 불투명하거나 비공개적이다. 다수의 사람에게 피해를 줄 수 있다. 모형으로 인해 다른 영역에까지 피해를 입을 수 있다.


모형을 개발할 때 데이터가 부족하고, 쓰이는 데이터도 raw data가 아니라 대리데이터다.

작가는 대표적인 예시로 대학 평가 모형을 들고 있다, '어떤 대학이 좋은 대학인가' 하는 질문에 직접 대답할 수 없으므로 특정 요소는 집어넣고 특정 요소는 배제하는 식으로 모형을 만드는데, 1. 해당 요소들이 정말로 '좋은 대학'임을 의미하는 지 알 수 없다는 점, 2. 결국 하버드, 예일 처럼 '기존에 명문대라고 알려진 대학들'에게 유리한 요소를 평가모형에 집어넣었다는 점 이다.(3장)


5장에서는 범죄발생모형, 재범방지모형을 다룬다. 수학 모형은 본질적으로 과거와 기존 패턴들이 반복될 것이라는 가정에 기반을 둔다(123p). 과거를 확인해보니 가난한 지역에서는 더 많은 범죄가 일어났다(모형이 만들어짐)->가난한 지역을 더 많이 감시해야 한다(모형의 결론)->더 많은 감시로 인해 더 많은 범죄가 적발된다(결과) 의 루프는 전형적인 편견의 재생산이다. 금융권에서 벌어지는 화이트칼라 범죄에 대해서는 이런 모형이 작동하지 않는다.
이러한 현상이 발생하는데는 모형개발자들, 나아가 사람들이 인과관계와 상관관계를 혼동하기 때문이다 (460p)

또 참여자들은 참여자들은 해당 모형으로 인해 얻어진 결과에 대해 '왜 그런 결론이 나왔는지'에 대한 정보를 얻지 못하고, 또 잘못된 정보가 있을 때 수정하기 어렵다. 모형 역시 피드백을 받지 않으므로 잘못된 점이 수정되지 않는다.
6장의 인재채용모형에서는, 사람에게서 지원자들을 차별하는 배운 컴퓨터가 인간들보다 더 효율적으로 차별적으로 심사를 하는 (340p) 이야기가 나온다. 하지만 지원자들은 자신이 왜 부적절한 지원자로 분류되었는지 알 수 없다. 또 떨어진 지원자가 다른 회사에 입사하여 승승장구하더라도, 회사의 인재채용모형은 해당 사실을 반영하지 않으므로, 모형의 틀린 부분을 수정하지 않는다.

이런 잘못된 모형들은 특히 가난한 사람들에게 큰 영향을 끼친다. 모형은 사람을 그룹으로 나누어 분류한다. 특권층은 개별적인 대인 면담을 통해 평가받고, 대부분의 평범한 사람들은 기계과 일괄적으로 처리한다.(39p) 모형을 만드는 데이터가 되지 않기 위해서, 즉 프라이버시를 확보하는데는 대가가 따른다. 그리고 그 대가는 시간이 흐를수록 더 비싸진다 (p485) 비특권층은 인간의 편견이 입력된 기계의 분류에서 빠져나갈 방법이 거의 없다.
동시에 모형은 가난한 사람들을 착취한다. 구글이나 페이스북이 제공하는 맞춤형 광고의 폐해에 대해 다루고 있는 4장이다. 가난한 사람들의 취햑성, 그들이 느끼는 고통은 기업들에게는 금맥이다.
그리고 이렇게 만들어진 모형이 개인의 삶에서 다른 분야에까지 영향을 끼치는게 7장 일정 모형,  8장 신용 점수, 9장 보험료 책정에 대한 이야기이다.놀랍게도 보험료 책정에 영향을 끼치는 요소가 개인의 사고 기록이 아니라 신용점수다!


이러한 WMD의 덫에서 벗어나려면? WMD를 무장해제하는 것은 기업의 수익으로 연결되지 않는다.(p. 574) 그래서 인간이 모형에게 공정성을 가르쳐야 한다. 더 나은 가치를 알고리즘에 포함시키고, 윤리적 지표를 따르는 빅데이터 모형을 창조해야 한다. 그렇게 하려면 가끔은 이익보다 공정성을 우선시 해야한다.(p.579). 좋읜 의도만으로는 충분하지 않다. 모형에 입력되는 데이터와 모형이 생산한 결과를 공개함으로써 투명성을 확보해야 한다. 감사도 받아야 한다. 모형은 강력한 힘을 가졌기에 경계의 담장을 낮추어서는 절대 안된다.(p. 616)


* 나 만의 한문장

- 사립학교, 고액 SAT 과외, 파리나 상하이 어학연수 등 유리한 조건을 갖추고 교외의 부자 동네에 거주하는 젊은이는 금수저인데도 자신을 특권층으로 만들어준 것이 자신의 능력, 근면함, 탁월한 문제 해결력이라고 자부한다. 이는 돈이 모든 의심을 잠재운 결과다. 게다가 이런 계층의 사람들이 똘똘 뭉쳐 서로 칭찬하는 사회 (mutual admiration society)를 형성한다. 다른 사람들 눈에는 시스템을 악용한 것과 대단한 행운이 결합된 결과물로밖에 보이지 않는데도, 그들은 세상 사람들에게 자신들의 성공을 적자생존의 사회적 다원주의가 작동한 결과임을 납득시키려 한다. (p.152)


- 평등 문제는 다른 사안들에 비하면 대수롭지 않게 보일지도 모르겠다. 그러나 평등은 정의 구현에 있어서 매우 중요한 부분으로, 다른 무엇보다 형벅적 정의(criminal justice)를 경험한다는 뜻이다. 불심검문 같은 저액을 지지하는 사람들은 불심검문을 직접 당해보아야 한다. 정의는 사회의 한 부분이 다른 부분에 가하는 것이 되어서는 절대 안 된다. (p.288)


- 기업들이 웰니스 프로그램으로 얻는 최대의 비용 절감 효과는 직원들에게 부과된 벌금에서 나온다 (p.508)


*총평

- 수학자 출신으로, 헷지펀드 트레이더와 데이터 분석가로 활동했던 저자의 약력이 빅데이터의 어두운 측면을 서술하는 글에 설득력을 준다. 책 읽기 전에 기대했던 그 이상의 내용이 있었다

- 최근에 보았던 '아마존 인공지능 채용' 이 바로 WMD의 대표적인 사례.

- 케임브리지 애널리티카에 대한 내용도 나온다! 하지만 개인정보 도용 사건이 나오기 전의 책인데도 이미 CA의 위험함을 경고하고 있다.

- 아마존의 상품추천이나 넷플릭스의 작품 추천처럼 개인의 삶에 즐거운 영향을 주는 모형도 있고, 우리 삶에 긍정적인 영향을 끼치기 위해 만들어지는 모형도 있지만, 의도와 별개로 모형에 대한 엄격한 감시가 필요하다는 것이 작가의 의견.


* 남은 질문들

개인적으로 할 수 있는 일은... 일단 쿠키를 지우고... 광고 클릭은 하지 않고.. 전화번호는 주지 말고... 할 수 있는 일이 별거 없다는 점에서 정말 사는데 큰 영향을 끼친다는걸 다시 한 번 알 수 있다..