[Dispatch=박혜진기자] "감사합니다~ X발"
"감사"와 "X발". 상반된 단어다. 한 사람이 말한 걸까? 팬들은 여전히 갑론을박 중이다. 누군가는 'X발'로 들었고, 누군가는 '(9)시 반'으로 추측했다.
'제로베이스원' 김지웅이 욕설 의혹에 휩싸였다. 팬과의 영상 통화 중 욕을 했다는 것. 그는 사실이 아님을 강조했다. 욕을 들은 사람은 있는데, 말한 사람은 없는 상황.
웨이크원 측은 "디지털 미디어 포렌식 등을 통해 확인 작업을 거치겠다. 사실 여부를 명명백백히 가리겠다"고 말했다. 그러나 논란은 사그라지지 않았다.
영상을 올린 팬 K씨는 "뚜렷한 영상 증거가 있는데도 말로만 아니라고 공식입장을 내냐. 억울하고 속상하다"고 호소했다. 진실을 놓고 공방이 이어졌다.
지금 필요한 건, 객관적인 분석. '디스패치'가 한국과학수사감정원에서 진행한 김지웅의 음성 분석 감정서를 입수했다. 전문가의 의견을 토대로 정리했다.
(감정관은 이○○ 이학박사. 그는 국립과학수사연구원에서 약 30년간 감정을 진행했다. 현재 사설감정회사를 운영 중이다.)
# 뭐라고 했나 (발음 분석)
해당 행사는 '제로베이스원'의 앨범 구매자 중 30명을 무작위로 뽑아 영상 통화를 하는 이벤트다. 지난달 27일, '웨이크원' 사무실에서 진행했다. 각 멤버들은 팬 1명당 1분 30초가량 통화했다.
감정물은 2가지다. 먼저, K씨가 SNS에 공개한 영상. 용량은 95.6MB, 3초 분량. 해당 구간을 A(F₁ ∼ F₅), B(F₆ ∼ F₈), C(F₉ ∼ F₁₂) 세 구간으로 나눴다.
2번째는 CCTV. 행사 당시 상황을 녹화한 영상이다. CCTV 속 김지웅의 입 모양과 팬 영상 속 나오는 음성이 동일한지를 살폈다.
포먼트(formant)를 통해 발음을 분석했다. 포먼트는 성도(聲道)에서 발생하는 공진 주파수를 뜻한다. 사람의 소리를 주파수로 분석해 성문의 흔적을 찾는 방식이다.
성문 분석 결과, A 구간은 '감사합니다', B 구간은 '무성음+X발', C 구간은 '이 or 수+상한데'로 판별됐다.
# 누가 말했나 (화자 분석)
그럼, 누가 말했을까? K씨는 김지웅으로 추정했다. A구간은 영상으로 판별 시, 김지웅이 맞다. 하지만 문제의 B구간은 화면이 (휴대폰 덮개 혹은 스태프의 손으로 추정) 가려졌다.
감정관은 구간별 주파수(피치)에 따라 화자를 분석했다. 낮은 주파수부터 높은 주파수까지, 성문의 영역대를 나눠서 살폈다.
먼저 A 구간. 이 박사는 "동일한 사람의 목소리가 녹취된 상황으로 추정된다. (김지웅의) 입 움직임과 A구간 포먼트 목소리 발성이 합치된다"고 김지웅을 화자로 판단했다.
핵심은, B 구간이다. 저음 영역(1957Hz)보다 높은 주파수 ε와 α사이를 봐야 한다. 유사한 성문의 영역으로 보인다. 한마디로, 한 사람의 목소리라는 의미다.
단, 김지웅의 목소리로 단정지을 순 없다. 감정관은 "팬 영상에서 말한 인물(김지웅)을 확인하기가 불가능하다"며 "B구간 음성의 화자를 판별하기 어렵다"고 말했다. C구간도 같은 결과다.
# 김지웅이 맞나 (변조 분석)
구간을 연결해서 보면 어떨까. A-B구간의 파형을 확장해 봤다. A-B '연결된 부분'의 피치와 높이가 왜곡된 형상은 없었다. 연속적으로 녹음된 상황이라는 의미다.
그러나, '주파수 응답 파형'에서 다른 값이 나왔다. 이때 피치 및 높이가 서로 다른 것. 감정관은 "A-B구간 음성은 서로 다른 화자의 상이한 목소리로 보인다"고 판단했다.
B-C구간 역시 연속해서 녹음된 상황. 하지만 이번에도 주파수 응답 파형은 달랐다. 피치와 높이가 같지 않았다.
분석관은 A-B, B-C구간을 '다른 화자, 다른 목소리'로 봤다. "A와 C구간의 목소리 발음을 '피치 가공'을 통해 원래 목소리가 변성된 동영상으로 보인다"고 말했다.
"B구간의 발음은 A, C구간과 다르게 상대적으로 명확하게 분별됩니다. 성문 분석을 통해 재확인한 결과, B구간은 청취자들에게 집중의 극대화를 위해 의도적으로 'X발'의 발음을 피치 가공 없이 녹음한 상황으로 판단됩니다."
전문가는 "팬 영상의 흔들림 및 촬영된 피사체(인물, 폰 등)의 움직임으로 보아, 또 다른 기기를 사용해 촬영한 것으로 보인다"며 "B구간은 외부에서 삽입된 목소리에 의해 녹음된 상황"이라고 분석했다.
# 그날의 상황 (현장 스태프 인터뷰)
CCTV는 팬 영상과 당일의 상황이 담긴 CCTV를 동일한 타임라인에 놓고 비교했다. 하지만, 김지웅의 입 모양이 옆 멤버의 머리에 가려져 판별이 어려웠다.
'디스패치'는 현장에 있었던 스태프 D씨와도 인터뷰했다. 행사는 아티스트 1명당 스태프 1명이 전담 마크했다. D씨는 김지웅을 담당했다. 한 음반사 소속 직원이다.
김지웅은 9명 중 우측에서 4번째에 착석했다. D씨는 김지웅의 바로 앞에 앉았다. 두 사람은 이어폰을 동시에 연결한 상태였다. 통화 내용을 실시간으로 함께 들었다. (필요시 통역 스태프 배치 등 만일의 상황에 대비한 조처였다)
그는 "K씨와의 통화 내용은 정확하게 기억이 안 난다"면서도 "하지만 김지웅이 욕을 하지 않았다는 건 확실히 말할 수 있다. 들은 게 없다"고 강조했다.
특히, 멤버들은 근거리에 붙어있었다. 1번 멤버가 통화를 끝내면, 2번 멤버에게 휴대폰을 넘기는 식이었다. 김지웅이 통화가 끝났어도, 옆 멤버는 통화를 계속 진행하고 있었다는 것.
그는 "다른 아티스트가 옆에서 계속 영상통화를 하고 있었다"면서 "욕을 할 수 있는 상황 자체가 아니었다. 할 리도 없고, 들은 것도 없다"고 말했다.
# 최종 감정 결과 요약
① 판별된 음성은 A(감사합니다), B(무성음+X발), C(이 or 수+상한데).
② 팬 영상은 제작 과정에서 'X발' 목소리 발음을 강조하기 위해 A구간 목소리에 형성된 피치를 가공했다. C구간도 피치를 가공한 것으로 판단된다.
③ A-B와 B-C 구간은 주파수 응답 파형에서 판별된 피치와 높이가 서로 달랐다. 즉, 말하는 이도 다르고, 목소리도 다르다.
④ A-B-C 구간은 연이어 녹취됐다. 팬 영상 촬영 조건으로 보아, 'X발'은 외부에서 녹음됐을 가능성이 있다.
⑤ CCTV 확인 결과, 김지웅의 입 모양에 특이점은 보이지 않았다. 팬 영상은 주변 목소리가 혼합된 상황을 배제할 수 없다. 따라서 'X발'은 김지웅이 말한 건지 특정할 수 없다.