메인메뉴로 이동 본문으로 이동

HR AI

AI의 시대


◆ AI시대의 변곡점

◎ 2016년 알파고의 등장

 

 - 알파고 등장 이후 AI가 빠르게 성장. 투자규모가 4조원 정도였던 AI시장이 20조원 규모로 확장되었고, 당시 음성인식, 얼굴인식 기술로 시작되었던 AI가 많은 어플리케이션으로 확장 되었음.
 

◎ 2022년 챗GPT의 등장

- 알파고와는 비교 불가한 임팩트임.

- 오픈 두달만에 1억명이 가입한 유래없는 서비스. 세상의 모든 글을 AI가 학습한 초 거대 AI모델, 1일 평균 학습비용이 50억원에 달함. 

 

◎ 다양한 AI기반의 서비스가 등장

- Typecast: 원하는 텍스트를 원하는 음성으로 바꿔주는 서비스

- Genesislab AI Human: 텍스트를 입력하면 AI휴먼이 읽어주는 서비스

- Neural Text: 제목만 넣으면 내용을 만들어주는 서비스

- 클로바노트(네이버): 음성인식을 통해 회의록을 작성해주는 서비스


◆ HR영역에서의 TECH

 

- 공고 및 소싱에서 퇴사까지, vertical Service 들이 나오고 있으며, HR Practice 에 AI가 적용되고 있는 분야도 확대되고 있음

 

1.png

 

 

- HR영역에서 AI를 도입할 때, 비용, 인력 절감 등의 효과성이 높은 부분들을 검토하고 AI 적용 수준을 함께 고려하여 적용할 수 있는 영역들을 검토 하여야 함.

 

2.png

 AI in HR

 

◆ HR과 AI의 관계성

 

- HR의 핵심은 의사결정: 정형화 하기 어려운 [사람]에 대해 효과적이고 올바른 [의사결정]을 내리는 것

 

- 인간과 AI의 의사결정 모두 베이지안 추론*을 사용하여 신념을 업데이트하고 새로운 정보를 기반으로 더 나은 결정을 내릴 수 있다는 공통점을 지님.

하지만 AI는 의사결정을 할 수 없으며, HR의 핵심인 의사결정은 AI의 예측치와 사람은 이를 판단의 근거로 삼음으로써 이루어질 수 있음.

 

* 베이지안추론 : [통계적 추론] 방법으로, 추론 대상의 [사전 확률]과 추가적인 정보를 통해 해당 대상의 [사후 확률]을 추론하는 방법


3.png

◆ Why, AI in HR : AI in HR의 가치

 

◎ 인력, 비용과 시간의 획기적인 절감

 

◎ 가치창출

- 예측에 대한 정보를 앎으로써 생기는 가치

- 예측&판단을 분리함으로써 생기는 가치

- HR디지털트랜스포메이션으로 생기는 가치 

 

◆ How, AI in HR : 어떻게 해야 잘 활용할 수 있을까?

 

◎ AI공급사에게 요구&확인해야한다.

 

▹ Trustworthy: 믿을 수 있는가 

- 내부검증 프로세스: 자체적으로 편향과 노이즈에 대한 AI모델 성능 평가 방안을 구축하고 있어야 하며, 그 과정과 분석결과를 투명하게 공개할 수 있어야 함.

- 외부기관을 통한 검증: 공신력있는 기관을 통해 객관적 시각으로 신뢰성 검증

 

▹ Customization: 우리 조직에 적합한가

- 커스텀: 조직마다 요구되는 인재상이 다르므로, 특성에 맞게 커스텀하는 서비스를 제공하는지 확인

- 유의성 검증을 통한 사후 검증: AI의 예측이 조직의 채용 결과와 통계적으로 유의미한지 검증해야 함. 또한 사후 검증 결과를 반영하여 재학습을 통해 AI를 고도화할 수 있으며 이를 통해 우리조직 특성에 맞는 맞춤화 서비스를 제공하는지 확인

- 설계과정에 참여: 데이터 레이블링 부터 모델을 설계한든 과정에 적극적으로 참여하여, 조직에 적합하도록 맞춤형 AI를 학습할 수 있도록 하는 방법

 

▹ Good Enough: 충분한 정보를 제공하는가

- 요구사항 반영: 조직마다, 시즌마다 요구되는 사항 및 조직의 특성에 따른 서비스를 제공하거나 개발하는가

- 데이터확보의 어려움에 대한 접근: HR데이터의 취약성: N수 확보의 어려움

맞춤형 인재 예측: 조직적합도, 직무 적합도, 성과예측, 장기근속/이탈 예측 등의 예측 서비스를 제공하는지 (예. 제네시스랩 Fit index)

 

◎  HR Digital Transformation 

 

◆ AI-driven HR의 현재와 미래: Fit Index

 

◎ Fit Index란

- 우리 회사, 선발 직무에 적합한 인재를 알려주는 프로파일링 서비스

- 선발 후 조직 적합성까지 고려하는 Data-driven 인재 추천 시스템

 

4.png

 ◎ Fit index 알고리즘 기본 개념

- 프로파일링 기법: 특정 대상의 특징과 패턴을 분석하여, 미래의 행동 또는 상태를 예측하는 기법

- Error Minimaztion: 인간의 인지과정과 유사한 Prediction Error Minimization 기반, 프로파일 기반 사전확률을 적합해나가는 방식

 

◎ Fit index의 강점

- 필요 데이터수: 30~100 이상

    : 데이터 대량 확보에 취약한 HR특성에서도 좋은 성능을 보임

- 설명가능성: 집단에 대한 적합정보를 산출하는 로직 설명 가능

 

HR의 기회로 만드는 “신뢰할 수 있는 AI”

 

▶️Chapter 1. “신뢰할 수 있는 AI” 와 HR의 AI Transformation


어느덧 AI 라는 말이 매우 익숙한 시대가 되었습니다.


의료 AI, 금융 AI, 자율주행 AI 등 분야를 막론하고 AI 라는 말이 붙으면 대단해보이는 커다란 분야부터 시작해서, 번역기나 사진 필터 어플리케이션까지, 정말 알게 모르게 다양한 분야에서 AI 가 적용되고 있는 세상이 되었습니다. 아마 정말 머지 않은, 매우 가까운 미래에는 AI 가 없는 삶을 상상하기 어려울 것입니다. 어떤 분들은, AI 가 마치 우리가 지금 모든 일에 컴퓨터를 사용하듯이 우리 일상 곳곳에 AI 가 속속들이 파고 들어와, 인류의 삶의 방식을 아주 마이크로한 부분까지 전부 바꿔나갈 것이라고 말하기도 하니까요.


한편, AI 가 이렇게 급속도로 발전하고 사회 곳곳, 우리 생활 전반에 파고들면서 AI 모델의 신뢰성에 대한 문제 제기 또한 꾸준히 이루어지고 있습니다. 가장 대표적인 사례 중 하나가, 최근 Meta 에서 발표했던 “ Galactica” 입니다.

 

1.png

https://thenextweb.com/news/meta-takes-new-ai-system-offline-because-twitter-users-mean 


Galactica 는 학술논문 등 전세계의 학술 데이터를 기반으로 해서 학습된 언어 모델입니다. 쉽게 말해, “학술 지식"을 기반으로 하여, ChatGPT 와 비슷한 일을 하는 언어 생성 모델인 것이죠. 그런데, 이 Galactica 는 안타깝게도 공개된지 3일만에 폐쇄되었습니다. 

이유가 무엇이었을까요?

바로 “신뢰성" 문제 때문입니다. 

모델이 생성해내는 결과물이 얼핏 보았을 때는 굉장히 그럴싸한 대답처럼 보여서 잘 모르는 사람은 속아 넘어갈 정도지만, 실제로 내용을 살펴보면 사실에 반하거나 말도 안 되는 내용을 되풀이 했기 때문입니다.


2.png

 


3.png

https://thenextweb.com/news/meta-takes-new-ai-system-offline-because-twitter-users-mean


위 사진에서 보면, “깨진 유리를 먹는 것의 이점" 이라는 주제로 말도 안 되는 내용들을 논리정연 해보이게 서술하고 있죠. 깨진 유리는 식이 규소로 이루어져 있기 때문에 뼈와 조직 건강에 도움이 될 수 있다는 내용도 만들어냅니다. 그 외에도 “왜 백인이 우월한가?” 라든지, “반유대주의의 이점" 이라든지, 인종차별적인 내용을 빈약한 근거를 대면서 아무렇지 않게 만들어내는 이슈도 존재했습니다. Galactica 는 이러한 논란의 중심에 서게 되면서, Meta 에서는 빠르게 3일만에 서비스를 내리는 결정을 내립니다. 


최근 화두가 되고 있는 ChatGPT 또한 이러한 비판으로부터 자유롭지는 못 합니다. 1000가 1062보다 더 크냐는 질문에 그럴싸한 이유를 붙이면서 엉뚱한 소리를 하거나, 또 마찬가지로 그럴싸한, 그러나 완전히 말도 안 되는 이유를 대면서 N행시를 못 하는 문제가 발견되었습니다. 참고로 이 사례는 현재 서비스 중인 버전의 ChatGPT 를 이용해서 직접 만들어낸 사례입니다. 세계에서 제일 AI 를 잘 하고 있는 빅테크인 Meta 나 OpenAI / Microsoft 에서도 최근까지 이런 문제로 골머리를 앓고 있다는 점이 놀랍다면 놀랍습니다.

 

4.png

 

5.png

  

한편, 이런 AI 모델의 신뢰성 문제는, 우리 삶에 미치는 영향이 큰 분야일수록 더더욱 강력하게 문제 제기되고 있습니다. 예를 들어 의료 AI, 자율주행 AI, 보안 관련 AI 등이 그렇습니다.  HR 또한 결코 예외가 될 수는 없겠죠. 모두 인간의 생명이나 안전, 혹은 인간 그 자체를 다루는 분야이고, 만약 AI 가 앞선 사례처럼 말도 안 되는 판단을 내린다면 그 후폭풍이 너무나 치명적이기 때문입니다. 제 생각에는, 이런 이유로 인해, 여기 모이신 여러분들의 전문 분야인 HR 도메인에서도, AI 가 가져온, 그리고 앞으로 가져올 혁신에 비하여 HR 분야의 AI 도입은 안타깝게도 아직까지 제한적인 것 같습니다.


하지만 우리는 절대 AI 를 포기하지 못 할 겁니다. 오히려 AI 의 발전은 점점 가속화될 것이고,  HR 분야 또한 AI Transformation 의 물결을 비껴 가리라는 판단은 오히려 비현실적일 것입니다. 어떤 형태로든 AI 기술은 HR 분야의 고도화와 성장을 이끌어낼 것입니다. 그만큼 AI 기술이 가지고 있는 잠재성과 가능성이 무궁무진하기 때문이겠죠.

 6.png

 잠시 위 그래프를 봐주시기 바랍니다. 아마 이 그래프를 아시는 분도 계실 것 같습니다. (흔히 더닝-크루거 효과로 잘못 알려져 있는 그래프이기도 하죠.) 위 그래프는 흔히 사람들이 새로운 전문분야를 접하는 과정을 묘사하고 있습니다. 우리가 처음에 어떤 전문 분야를 접하면 아주 큰, 근거 없는 자신감을 가지고 ‘혹시 내가 천재인가?’ 하고 생각하는 단계가 있죠. 모든 것이 잘 풀리는 것 같고, 뭐든 해낼 수 있을 것 같은 생각이 듭니다. 그러나 시간이 흐르고 그 분야를 조금 더 공부해보니 사실 자신이 우물 안 개구리임을 깨닫고 해당 분야가 얼마나 어렵고 깊이 있는지를 통감하는 시간이 옵니다. 위 그림에서는 “절망의 골짜기" 라고 표현하고 있네요. 이 단계에서 포기하는 사람과 그렇지 않은 사람이 있겠습니다만, 우리가 “전문가"라고 부르는 사람들은 열이면 열 여기서 포기하지 않고 노력을 거듭해 깨달음의 언덕을 지나 경지에 오른 분들일 겁니다. 이 단계에서 포기하는 사람은 결코 “전문가"가 될 수는 없겠죠. 


그런데 이 그래프, 제가 유심히 살펴보니 사실은 저희가 접하게 되는 거의 모든 새로운 테크놀로지에도 적용할 수 있습니다. 비행기가 처음 발명되었을 때, 전구가 처음 발명되었을 때, 모든 사람들은 기적을 본 것처럼 놀라고 열광했을 겁니다. 마치 AI가 지금까지 잘 풀리지 않던 문제들을 놀라운 성능으로 해내는 것을 저희가 처음 보았을 때처럼 말이죠. 하지만 비행기가 추락하면서 사람이 다치거나 죽을 수 있고, 전구에 의해 화재가 발생하거나 감전 등으로 인명사고가 일어날 수 있다는 사실이 알려지기 시작하면서, 사람들은 이내 큰 의심과 거부감을 가지기 시작했을 겁니다. 말하자면, 기술의 “절망의 골짜기" 에 빠지게 된 것이죠. 그럼에도 불구하고 연구자들과 기술자들, 그리고 기업가 정신을 가진 사업가 등 많은 사람들은 이 기술을 포기하지 않고 개선에 개선을 거듭해, 이러한 기술들을 신뢰할 수 있는 수준으로 끌어올렸습니다. 그 결과 지금 우리가 살고 있는 21세기에서 전구와 비행기가 없는 삶은 상상할 수 없게 되었고요. 만약 위 그래프의 절망의 골짜기에서 우리가 이 불완전한 기술들을 포기했더라면, 지금 인류가 누리고 있는 기술의 혜택은 없었을 겁니다.


AI 도 비행기나 전구와 같은 선배 테크놀로지들을 따라, 동일한 과정을 거치고 있습니다. AI 가 인간 최고의 바둑기사에게 승리를 거두고 CT 나 MRI 로부터 암을 자동으로 구분해내고 자율주행의 가능성을 보여주었을 때 우리 모두는 열광했습니다. 마치 인류가 하늘을 날 수 있고 밤의 어둠을 밝힐 수 있다는 가능성을 확인했을 때처럼 말입니다. 하지만, 어느덧 AI 라는 말이 익숙해지기 시작하고 막연한 경외심이 사라졌습니다. 게다가, AI 의 신뢰성을 의심하게 하는 다양한 사건사고들이 일어나면서 우리는 AI를 의심하기 시작했습니다.

 

7.png

 


8.png

 

AI 가 만약 위 그래프를 따른다면, AI 또한 언젠가 비행기나 전구같은 아주 유용하고 널리 쓰이는 기술로 퍼지게 되겠죠. 하지만 저는 “그러므로 의심하지 말고 아무튼 AI 를 일단 써라" 와 같은 이야기를 하려는 것이 아닙니다. 왜냐하면, 이 과정이 “자동으로” 일어나는 것이기 아니기 때문입니다. 저 그래프의 언덕은, 저와 같은 연구자는 AI 기술을 계속해서 고도화하고, 여러분과 같은 도메인 전문가는 그 AI 기술이 과연 HR 분야에 유의미한 변화를 가져올 수 있을지, 안전한지, 신뢰할 수는 있는지를 면밀하게 검증하는 과정을 거쳐야만 오를 수 있는 언덕입니다. 비행기와 전구가 그랬듯이 말입니다.


따라서 저는, 그리고 제네시스랩은, AI 시대의 HR 전문가로서 여러분께서 오히려 AI 의 신뢰성을 더욱 더 엄격하게 의심하고, 검증하고, 평가한 후에 받아들여주시기를 권합니다.


저는 AI 모델의 신뢰성을 어떻게 평가해야 하는지에 대한 가이드라인 몇 가지 포인트를 짚어드리고자 합니다. 물론 100% 완벽한 정답으로서, “이렇게 하기만 하면 된다”는 같은 것은 없습니다. 하지만 그럼에도 불구하고, 제가 드리는 이야기가 설득력이 있다면, 이를 출발점으로 삼아 AI 의 신뢰성을 검증하는 과정에 함께 해주시기 바랍니다.


이를 통해 AI 면접에 대해 HR 전문가로서 여러분들이 가지고 계실 막연한 불안감을 버리시고, 신뢰할 수 있는 AI 면접의 장점만을 온전히 취하실 수 있기를 바랍니다.


분명 AI 기술은 하루가 다르게 발전해 나갈 것이고 HR 분야는 AI transformation 의 흐름의 한 가운데에 놓일 것입니다. 이 과정에서 HR 을 다루는 AI 모델의 신뢰성을 확보하는 것은, 저희 제네시스랩과 같은 AI 회사에게도, 그리고 여기 계신 여러분에게도 너무나 중요한 일일 것입니다.


간혹 어떤 AI 회사들은 내부 알고리즘이나 데이터에 대해 폐쇄적이고 이러한 검증에 잘 응하지 않는다는 이야기를 듣기도 합니다. 하지만, 제네시스랩이 구현하고 싶은 AI 는 그런 폐쇄적이고 베일에 감춰진 AI 가 아닙니다. 오히려 엄격한 검증을 거쳐 진정 사람에게 도움이 될 수 있는 AI 를 만들고자 합니다. 저희는 이를 위해 많은 것을 열어두고 있으며, 지금도 HR 을 진지하게 고민하고 있는 다양한 고객사와 HR 담당자분들과 실제로 검증을 진행하고 있으며, 여기 계신 여러분들과도 함께 검증해나가고자 합니다. AI 가 당연해진 미래에서 HR 분야의 AI transformation 을 여기 계신 여러분과 함께 선도해 나가기 위해서 말입니다.

 

▶️Chapter 2. “신뢰할 수 있는 AI” 와  : Deep Learning 

 

“신뢰할 수 있는 AI” 를 논하기 위해서는 먼저 AI 가 무엇인지를 알아야겠지요.


여러분께서 생각하시는 AI 는 무엇인가요?


물론 역사적으로 받아들여지는 학술적인 딱딱한 정의도 있겠지만, 한 번 가볍게 생각해볼까요? 우리가 일상적으로 접하는 “AI” 라는 말은 이제는 일종의 마케팅 용어로서의 성격이 존재하죠. 실제로 많은 회사에서 AI 라는 말을 일반적인 프로그램에까지 붙이기 시작하면서 AI 라는 말은 그 범위가 매우 넓은 의미로 활용되고 있습니다.

 

9.png

 

이런 현실을 고려하면 “사람이 하는 일을 하는 프로그램, 혹은 그러한 프로그램을 만드는 분야" 정도로 정의해볼 수 있겠네요. 틀린 말은 아니지만… 역시 너무 느슨한 정의인 듯 하네요. 이런 관점에서 보면, 사람처럼 문을 열어주는 자동문도 AI 일테니까요. 하지만 그럼에도 이런 헐거운 정의를 이용해 AI 회사임을 자처하는 곳들이 분명히 있으므로, 여러분들께서도 “AI” 라는 이름만을 보셔서는 위험합니다.


지금 이야기하려는 AI 는 이런 넓은 의미의 AI 가 아니라, 어떤 “기술적 혁신" 으로서의 AI 를 뜻하죠. 이를 다루려면, 범위를 조금 더 좁혀야 할 것 같네요. “머신러닝" 혹은 “딥러닝”이라는 말 들어보신 분 잠깐 손 들어주실 수 있을까요? AI 만큼 잘 알려진 말은 아니긴 하죠. 머신러닝은 아주 쉽고 거칠게 말해서, 기계에게 입력값과 정답을 주면 그 정답을 잘 맞출 수 있도록 스스로의 로직을 개선하는 알고리즘입니다. 그리고 그 로직의 골자를 “사람의 두뇌"를 모방한 “딥 뉴럴 네트워크" 로 만든 것이 바로 딥러닝이고요.


간단히 정리하자면, “AI, 즉 사람이 하는 일을 하는 프로그램을 구현하는 방법 중 하나로 “머신러닝" 이 존재하고, “딥러닝" 은 머신러닝의 최신 방법론이다.” 로 정리할 수 있습니다. 

 

10.png

 

11.png

 

 

그 중에서도 여러분께서 집중해주셨으면 하는 부분은 바로 이 “딥러닝" 이라는 부분입니다. AI 의 어마어마한 물결이 몰려오기 시작한 시점은 바로 이 딥러닝이 발전되기 시작하면서입니다. 저희가 생각하고 있는 기술적 혁신으로서의 AI 는, 거의 대부분이 “딥러닝" 기술에 기반하고 있다고 해도 결코 과언이 아닙니다. 아주 오랜 세월 풀리지 않았던 다양한 문제들이 풀리기 시작한 것은 “딥러닝" 기반의 AI 가 등장하면서 비로소 가능하게 되었습니다. 최근 새로운 열풍을 몰고 온 ChatGPT 는 말할 것도 없고 말이죠.

 

12.png

 

여러분, 이번 챕터의 제목이 ““신뢰할 수 있는 AI” 와 알고리즘” 이었죠. 신뢰할 수 있는 AI 인지를 판단하기 위한 첫번째 기준입니다. 여러분이 사용하시려는 그 AI 가 딥러닝 알고리즘을 활용하고 있는지 확인하시기 바랍니다.


앞서 간략히 설명드렸듯이 AI 를 구현하기 위해서는 “전통적인 머신러닝" 방법 혹은 “딥러닝" 방법을 활용할 수 있습니다. 그러나 전통적인 머신러닝 방법은 그 한계가 매우 명확합니다. AI 모델이 판단을 내리는 데에 있어 필요한 정보들을 “특징" 혹은 영어로 “feature” 라고 부릅니다. 딥러닝 알고리즘은 저희가 실제로 보는 이미지, 비디오, 음성, 텍스트와 같은 로우 데이터로부터 판단에 필요한 특징을 “스스로" 학습하는 방식입니다. 하지만, 전통적인 머신러닝은 사람이 사전에 정의한 특징을 추출하고 활용하는 방식입니다. 따라서, 사람이 사전에 정의한 특징들이 만약 모든 상황에 일반화되지 않고 여러 상황에 적절히 활용될 수 있는 것이 아니라면 그 정확도는 매우 떨어지게 됩니다. 그리고 실제로도 AI 를 적용할만한 거의 모든 상황에서, 사람이 사전에 정의한 특징보다 딥러닝 모델이 스스로 찾아내는 특징들이 훨씬 유용하다는 것이 밝혀져 왔습니다. 이것이 전통적인 머신러닝이 풀지 못 한 문제들을 딥러닝이 잘 풀게 된 이유이기도 합니다.

 

13.png

https://www.researchgate.net/figure/Difference-between-traditional-machine-learning-and-deep-learning-Alex-2017_fig8_326834670


사람 얼굴을 인식하는 문제를 예시로 하여 “전통적인 머신러닝”과 “딥러닝”의 차이를 간략하게 설명드려보겠습니다. 전통적인 머신러닝에서는 사람 얼굴을 인식하기 위해서는 사람이 사전에 정의해 둔 특징을 추출해서 입력값으로 활용합니다. 예를 들어, 타원형으로 생긴 것 두 개가 대칭적으로 있고, 분홍색의 가로로 길쭉한 것이 있고, 이 세 물체가 적절한 각도와 거리로 있으면 얼굴이다, 이렇게 학습되는 방식이죠. 당연하지만, “타원형", “분홍색" 등 사람이 미리 정의해놓은 특징만을 이용하기 때문에 유연성이 극도로 떨어지고 실제로 성능도 매우 낮아 실제로 사용되기 어렵습니다. 만약 보시는 것과 같이 사람이 사전에 정의해둔 특징이 적용될 수 없는 다른 유형의 사진이 입력값으로 들어오면, 기존의 머신러닝 기반 방법론은 인식률이 굉장히 떨어지게 됩니다.

 

14.png

 

15.png

https://thecirclecomposition.org/computer-based-faced-recognition-traditional-vs-modern/

 

반대로 딥러닝 방식으로 얼굴 인식을 한다고 하면 어떻게 될까요? 모델에게 사전에 사람이 정의한 특징을 입력하는 것이 아니라, 모델이 스스로 특징들을 찾고 조합하게 됩니다. 따라서 그만큼 훨씬 유연하게 각도, 조명, 거리 등 다양한 요소들을 고려하여 판단을 내릴 수 있게 되는 것이죠. 그 결과로 딥러닝 기반의 얼굴 인식은 전통적인 머신러닝에 비해 압도적인 성능을 얻게 되었고, 단적으로 말해, 2023년 현재, 얼굴 인식을 하는데 딥러닝을 쓰지 않고 전통적인 머신러닝을 쓰는 경우는, 정말 예외적인 상황이 아니라면 사실 상 없다고 보셔도 됩니다.


면접 상황에 맞추어 생각해볼까요. 아마 여러분이 결국 진짜 관심을 갖고 계신 것은, AI 가 “실제 면접”을 잘 반영하고 “실제 면접을 보듯이” 지원자를 분석해 분석 혹은 평과 결과를 내놓는 것일 겁니다. 여기에 전통적인 머신러닝 방법을 활용한다면, 사람이 사전에 정의해둔 특정 요소들, 예를 들면, 반응속도, 순발력과 같은 특정 요소를 사전에 정의하고, 측정하고, 활용하게 되겠죠. 바로 이 지점에서 저희가 최초에 관심이 있었던 “실제 면접" 과의 괴리가 발생해버립니다. 마치 제한된 환경에서만 작동하고 새로운 각도의 얼굴은 전혀 다루지 못 했던 전통적인 머신러닝의 문제처럼, 사람이 정의해둔 특징이 실제 면접을 반영하지 못 하는 문제가 발생하는 것이죠. 게다가 실제 면접은 매우 다양한 요소들이 복잡다단한 조합을 통해 평가되어야 한다는 점에서도 제한된 특징으로 면접을 위한 AI 모델을 구성하는 것은 바람직해보이지 않습니다.


또한, 만약 전통적인 머신러닝에 활용하기 위해 사전에 정의해둔 특징들에 문제가 있다면 어떻게 될까요? 그 특징들이 사람의 편향을 이미 반영하고 있다면, 우리는 그 결과물을 신뢰할 수 있을까요? 사람의 부주의함이나 근거없는 편견에 의해 선택된 지원자의 특징들이, 인종차별적 요소나 성차별적 요소, 혹은 그 외에 밝혀지지 않은 사람들의 편견을 반영하고 있다면?


한편, 딥러닝 모델이라면 어떨까요? 저희가 관심이 있는 게 “실제 면접" 을 반영하여 “실제 면접을 보듯이" 지원자를 분석하고 평가하는 AI 라면, 딥러닝 모델에게 지원자의 면접 영상을 그대로 보여주면 됩니다. 전통적인 머신러닝과 다르게 사전에 특징을 정의하고 뽑아내는 과정이 없기 때문에, 그리고 딥러닝 모델은 스스로가 판단에 필요한 특징을 학습하기 때문에 가능한 방식인 것이죠. 따라서, “충분한 양질의 데이터만 제공된다면", 딥러닝 모델은 굉장히 유연한 방식으로 다양한 특징을 갖는 지원자를 분석할 수 있게 됩니다. 그리고 당연히 실제 면접에 유사한 데이터를 통해 지원자를 분석하기 때문에, 실제 면접과 유사한 분석으로 실제 면접을 보듯이 결과를 산출하게 됩니다. 전통적인 머신러닝 방법처럼 지원자의 능력을 판단하기 위해 필요한 (혹은 필요한지 아닌지 알 수 없긴 하죠) 특정 요소들을 측정하기 위해 먼 길을 돌아갈 필요가 없게 되는 것이죠. 또한, 스스로 필요한 특징을 학습하기 때문에, 어떤 특징을 활용할지를 정하는 사람의 명시적인 개입으로 인한 편향으로부터 상대적으로 자유롭습니다.

 

16.png

 AI 면접에 대해 흔히들 하시는 오해가 있습니다.

 

▹ 많이 웃으면 점수가 높게 나오나요?


▹ 머리를 풀고 찍으면 점수가 떨어지나요?


▹ 말 잘하는 사람이 점수가 높게 나오는 것 아닌가요?


▹ 등등…

 

결론부터 말씀드리면 “아닙니다”. 최소한 딥러닝 모델을 사용했다면 보통은 그렇지 않습니다.


반면 저런 특징들을 활용하는 전통적인 머신러닝이라면, 그럴 수 있습니다. “웃음의 빈도", “사용하는 단어/문장의 길이" 같은 요소를 먼저 측정한 뒤에 이를 반영해 평가하게 한다면, 해당 요소들이 평가에 매우 크게 반영될 수 있겠죠.


하지만 딥러닝 모델은 저런 특징들을 별도로 굳이 주지 않는 이상, 직접적으로 저런 요소만을 보고 평가를 내리지 않습니다. 오히려 사람 면접관이 하듯이, 다양한 요소들을 복합적으로 고려하여 결과를 제공하기 때문에, 특정 요소에만 의존하지 않습니다.

 

17.png

 

이 그림는 AI 를 하는 사람이면 누구나 알고있는, AI 의 대가 Andrew Ng 교수님의 슬라이드입니다. 딥러닝의 대중화에 지대한 공헌을 하셨죠. 딥러닝 모델이 전통적인 머신러닝에 비해 갖는 이점을 아주 잘 요약하고 있는 그래프이죠. 이미지, 비디오, 음성, 텍스트와 같은 로우 데이터로부터 스스로 특징을 학습해나가는 딥러닝의 경우 양질의 데이터가 많아질수록 더 특징을 정교하게 학습하여 점점 성능이 증가합니다. 하지만, 전통적인 머신러닝의 경우 사전에 사람이 직접 정의한 특징만을 활용하기 때문에 성능의 한계가 명확합니다. 2023년 현재, 진짜 AI 라고 부를만한 것들이 모두 딥러닝을 이용하고 있는 이유입니다.

 

▶ 딥러닝의 특징

① 전통적인 머신러닝에 비해 다양한 상황에 유연하게 적용 가능

② 사람이 사전에 특징을 정의하면서 발생하는 편향으로부터 자유로움

③ 실제 면접과 유사함 - 사람 면접관처럼 다양한 요소를 종합적으로 고려함

④ 데이터가 많아질수록 점점 고도화

 

▶️Chapter 3. “신뢰할 수 있는 AI” 와  데이터파이프라인

 

그렇다면 “딥러닝 모델을 쓰면 자동으로 신뢰할 수 있는 AI 를 만들 수 있는가?” 그러면 너무나도 좋겠지만, 당연히 그렇지는 않습니다. 전통적인 머신러닝에 비하면 딥러닝에게 너무나도 많은 이점이 있는 것은 명백한 사실이나, 딥러닝 또한 편향을 배울 수 있습니다. Galactica 나 ChatGPT 에서 발견된 사례들처럼 말이죠.


결론부터 먼저 말씀드리면 딥러닝 모델에서 발생하는 편향은 근본적으로 “학습 데이터”로부터 발생합니다. 따라서 앞선 챕터에서 “충분한 양질의 데이터"가 필요하다고 말씀을 드렸던 것이구요.


데이터와 딥러닝 모델의 관계를 조금 더 설명드려볼까 합니다. 제가 딥러닝 모델은 이미지, 비디오, 텍스트, 음성과 같은 로우 데이터로부터 스스로 특징을 배운다고 했었죠. 딥러닝 모델은 과연 어떤 방식으로 특징을 스스로 학습하게 될까요? 개와 고양이를 구분하는 아주 간단한 예시와 함께 살펴보겠습니다.

 

18.png

 

여기 전혀 학습이 되지 않은 AI 모델이 있습니다. 우리는 개 사진을 AI 모델에게 입력시키고, AI 모델은 개 사진의 픽셀값으로부터 추론 결과를 내뱉게 됩니다. 최초의 AI 모델은 학습이 되어 있지 않기 때문에 엉뚱한 예측값을 내뱉습니다.


19.png

 

개의 이미지를 입력했을 때, 이 이미지의 픽셀값으로부터 개의 확률을 10%, 고양이의 확률을 90% 로 예측했다고 해보겠습니다.

 

20.png

 

그럼 딥러닝 학습 알고리즘에 의해서, 정답과 추론 결과 사이의 차이를 계산하고,

 

21.png

 

AI 모델에게 그만큼의 피드백을 주게 됩니다. 이 상황에서는 0.9 만큼 틀렸으니 꽤 강한 피드백이 들어가겠네요. 그럼 AI 모델은 내부에 존재하는 패러미터라고 불리는 무수히 많은 숫자들의 값을 수정하게 됩니다. 딥러닝 모델은 이 패러미터들을 통해 픽셀값의 조합을 계산해내기 때문에, 패러미터가 잘 수정되었다면 딥러닝 모델은 픽셀값을 더 잘 분석할 수 있게 됩니다. 그리고 눈치 빠르신 분들은 벌써 감을 잡으셨겠지만, 이 딥러닝 모델이 찾아낸 “픽셀값의 조합"이 곧 딥러닝 모델이 스스로 학습하는 “특징"이 됩니다. 피드백을 통해 개 이미지의 새로운 픽셀값의 조합, 즉, 새로운 특징을 찾게 된 것이죠.


22.png

 

자, 이렇게 해서 조금은 더 똑똑해진 AI 모델에게 다시 개 이미지를 주어보겠습니다. 개 이미지의 픽셀값을 조금 더 잘 받아들이고 개의 특징을 더 잘 분석하게 된 AI 모델은 이제 개의 확률을 40% 로 예측했습니다. 아까보다는 나아졌지만 여전히 정답과의 괴리가 발생하죠. 여기서 또 다시 AI 모델에게 피드백을 주고, 패러미터를 수정합니다. 그럼 모델은 아까는 배우지 못 했던 새로운 특징을 다시 배우게 되는 것입니다.


우리가 딥러닝 AI 모델을 잘 만들기 위해서는 충분한 양질의 데이터가 필요로 하다는 것이 바로 이런 이유에 있습니다. 개의 다양한 특징을 담은 다양한 이미지를 많이 보여준다면, 딥러닝 모델은 스스로 정답과의 차이를 보면서 개의 특징을 더 많이 찾아낼 수 있게 되기 때문입니다. 다시 얼굴 인식의 사례로 돌아가자면, 정면 뿐 아니라 오른쪽이나 왼쪽, 아래나 위, 낮에, 또는 밤에, 다양한 헤어스타일 등등을 포함한 “양질의" 데이터로 학습이 되어있기만 하면, 굳이 성능이 떨어지는 사람이 정의한 특징을 사용할 필요없이 다양한 상황의 사람 얼굴을 잘 찾아낼 수 있게 되는 것입니다.

 

14.png

15.png

 

 

23.png

 

반대로 양질의 데이터가 적절히 확보되어 있지 않다면 어떨까요? 사회적으로 큰 논란이 되었던 대표적인 모델 편향의 예시를 하나 드려볼까 합니다. 몇 년 전 과거 구글 포토의 사례입니다. 사진의 내용으로부터 오브젝트 등의 특징을 뽑아내고, 이를 기반으로 사진을 분류해주는 기능이 있습니다. 모델이 보시는 것과 같이 잘못된 예측을 하면서, 구글 포토는 “인종차별적 AI”라는 오명을 가지게 되고, 많은 사람들로부터 신뢰성을 잃게 되었습니다. 문제의 원인은, 위와 같이 특이한 각도에서 찍힌 흑인의 사진이 충분히 많지 않았기 때문으로 추정됩니다.

 24.png

 

25.png

 

또 하나의 예시입니다. 딥러닝 모델이 시베리안 허스키를 늑대로 잘못 분류했네요. 모델이 어떤 픽셀들에 주목했는지를 역추적하는 방법론을 적용해보았더니, 실제로는 허스키 자체의 특징보다는 “눈밭" 이라는 특징에 더 집중하고 있었다는 것이 밝혀졌습니다. 아마도 저 모델을 학습하기 위한 데이터셋에 존재하는 “늑대” 사진들의 대부분이 눈밭에서 찍혔고, 모델은 “늑대” 그 자체가 아닌 “눈밭"이라는 특징을 늑대라고 학습했을 겁니다. 또 한 가지 사례를 볼까요? “물새” 를 “땅에 사는 새"로 구분해버린 사례입니다. 이 경우에는, 물새임에도 불구하고 배경이 물이 아니라 수풀이라는 이유로 “땅에 사는 새"로 구분해버린 것이죠. 이 경우도 마찬가지로 “물새”와 “땅에 사는 새" 자체의 특징이 아닌 “수풀" 이라는 엉뚱한 특징을 배웠기 때문입니다.


이러한 문제는 HR 도메인에서도 마찬가지로 발생할 수 있습니다. 만약 적은 숫자의 데이터만을 가지고 있다면 AI 모델은 면접을 위해 정말 필요한 특징을 배우기 보다는, 그 소수의 데이터에 국한되어 적용할 수 있는 엉뚱한 특징을 배워버릴 것입니다. 마치 눈밭에 있는 늑대만 보고 학습된 AI 모델이 편협한 지식을 바탕으로 시베리안 허스키를 늑대라고 추론했던 것처럼 말이죠. 극단적인 예시이지만, 만일 안경을 쓴 여성이 항상 압도적인 고득점을 받는 데이터셋이 있었다고 해보겠습니다. 그렇다면 딥러닝 모델은 안경을 쓴 여성 지원자의 실제 면접 능력에 집중하는 것이 아니라 “안경"과 “여성" 이라는 좀 더 눈에 쉽게 보이는 특징을 기억해버릴 수도 있습니다. 예시로서 “안경”과 “여성”이라는 알기 쉬운 특징을 말씀드렸지만, 그 외에도 피부톤이라든지, 목소리의 높낮이라든지, 혹은 눈에 쉽사리 보이지 않지만 중요한 그 외의 요소들에 대해서도 마찬가지입니다.


이러한 편향을 통제하기 위해서는 아주 간단하지만, 실제로 행하는 것은 매우 어려운 일을 해결해야 합니다. 바로 몇 번 반복해서 강조드린, “충분한 양질의 데이터"를 확보하는 것입니다. 면접 환경을 예로 들자면, 다양한 촬영 환경, 다양한 인구통계학적 특성, 다양한 직군, 다양한 장비, 다양한 외양, 다양한 목소리 등등을 포괄하는 응시자의 면접 영상 데이터를 확보하는 것이죠. 딥러닝의 가장 큰 장점인 “특징을 스스로 학습한다”는 점을 활용하면, 이렇듯 다양한 특성을 갖는 응시자 데이터로부터 “안경" 등과 같이 면접에 불필요한 특징들은 스스로 배제하고, 본디 평가하고자 하는 정보, 즉, 응시자의 면접 능력을 더 잘 평가할 수 있게 되는 것입니다.

 

26.png

 

다시 이 그래프를 볼까요? 딥러닝 모델이 처음부터 결코 완벽하지는 않습니다. 하지만 그럼에도 불구하고, “충분한 양질의 데이터"가 있다면 딥러닝 모델은 꾸준히 개선됩니다. 과거 구글 포토에서 발생했던 문제가 지금까지도 계속 빈발하고 있다는 이야기를 들은 적은 없는 것 같습니다. Galactica 나 ChatGPT 도 지금은 부족한 부분이 있지만, 실제 서비스를 통해 더 나은 데이터를 수집하면서 개선되어 나갈 것이 분명하고요.


방금 엄청 중요한 포인트가 하나 나왔네요. “충분한 양질의 데이터”가 중요하다는 것은 알겠으나, 어떻게 해야 그 충분한 양질의 데이터를 갖춘 곳인지를 알 수 있을까요? 제가 구글 포토 등의 사례를 통해 “실제 서비스를 통해 더 나은 데이터를 수집하면서 개선되어 나간다" 라고 말씀을 드렸죠. AI 서비스를 하는 회사는 크게 두 부류로 나뉩니다. 바로, 서비스를 통해 데이터를 수집하고 이를 통해 모델을 개선할 수 있는 회사와, 고정된 데이터셋을 통해 모델을 학습하는 회사입니다. 후자의 경우, 정기적으로 비용을 태우고 데이터를 수집해서 이를 통해 AI 모델을 학습합니다. AI 회사 대부분의 경우가 여기에 해당하긴 하죠. 전자의 경우, 예를 들자면, 인터넷 상 실시간으로 쌓이고 있는 어마어마한 데이터를 보유하고 있는 구글 같은 회사들이 해당하겠네요.


HR 분야는 어떨까요? 최소한 제가 알고있는 바, 약간의 자랑을 섞어서 말씀드리자면, 제네시스랩을 제외하고는 아직 미답의 영역으로 보입니다.


HR 분야는 어떨까요? 최소한 제가 알고있는 바, 약간의 자랑을 섞어서 말씀드리자면, 제네시스랩을 제외하고는 아직 미답의 영역으로 보입니다.


이건 약간은 개인적인 이야기입니다만, 제네시스랩이 딥러닝 연구자인 제 입장에서 참 매력적인 이유가 여기에 있습니다. 제가 합류하기 전부터 딥러닝은 곧 양질의 데이터에 의해 승부가 날 것이라는 판단 하에, 서비스, 데이터, AI 모델 고도화의 선순환 구조를 일찌감치 다져 놓았더군요.


즉, 사용자들이 서비스를 사용하면서 데이터가 수집되고, 수집된 데이터를 통해 딥러닝 모델이 고도화되고, 다시 이 고도화된 모델이 서비스에 적용되어 더 많은 데이터를 수집하는 “데이터 파이프라인" 이 사업 초창기부터 구축되어 있었습니다.


지금은 300만 개 정도의 면접 영상 데이터가 모여 있는 것으로 알고 있고, 지금도 실시간으로 데이터가 쌓이고 있을 겁니다. 실제 면접과 동일한 환경이므로 비디오, 음성, 텍스트를 포함하는 멀티모달 비디오 데이터이구요. 놀라운 것은, 그 모이는 숫자가 점점 기하급수적으로 늘고 있어서, 수년 간 모인 데이터와 작년 한 해간 모인 데이터의 수가 거의 비슷하다는 점입니다.


AI 면접 분야 만큼은 구글이나 OpenAI 같은 빅테크도 넘보기 어려운 데이터 파이프라인과 규모를 갖추고 있어서, AI 연구자인 저한테는 많은 공부와 기회가 됩니다. 참 즐겁습니다. 오히려 ChatGPT 사례처럼 범용적인 도메인의 데이터에서 오는 문제를 훨씬 효과적으로 통제할 수 있다는 점에서는 더 큰 이점이 있기도 하구요.


지금까지 크게 두 기준을 제시해드렸습니다. 첫 번째는 알고리즘 - 즉, 전통적인 머신러닝이 아닌 딥러닝 방식을 채택하고 있는지를, 두 번째는 데이터 - 즉, 양질의 데이터가 대량으로 또 지속적으로 축적되어 AI 모델의 성능을 계속해서 강화하는지를 확인하시라는 이야기를 드렸습니다. 이 두가지 축이 맞물려야, 비로소 AI 는 끊임없는 진화를 통해 성능과 신뢰성을 점점 고도화할 수 있게 됩니다.


지금까지의 이야기는 어떻게 보면, AI 를 연구하는 회사 내부에서 일어나는 일들에 대한 이야기라고 할 수 있겠습니다. 자, 그럼 여러분, 이제 마지막으로 여러분들이 보다 적극적으로 개입해주셔야 하는 부분입니다.

 

▶️Chapter 4. “신뢰할 수 있는 AI” 와 "검증할 수 있는 AI"


마지막 기준입니다. 여러분이 사용하시려는 그 AI 가 검증이 가능한지, 그리고 그 AI 회사는 검증에 열려있는지를 보시기 바랍니다.


몇 가지 예를 드리면 아래와 같은 항목을 직접적으로 물어보시고 검증에 응하도록 요구하시기 바랍니다.


전통적인 머신러닝과 딥러닝 중 어떤 방식을 활용해 AI 를 구현하는지, 만약 딥러닝이라면 구체적으로 AI 모델에게 무슨 데이터를 활용하여 어떤 문제를 풀도록 하는지, AI 모델이 풀고자 하는 문제가 실무에 유의미한 것인지, 이러한 목적성에 따라 적절한 데이터가 잘 쌓이고 있는지, 필요하다면 특정 모델을 만드는데에 활용된 데이터들을 사용자인 여러분들이 확인할 수 있는지, 어떤 사람이 어떤 딥러닝 알고리즘을 활용해서 모델을 학습했는지, 모델을 지속적으로 고도화하는 프로세스가 준비되어 있고 적용되고 있는지,한 마디로, 우리 회사에 필요한 AI 모델을 적절한 데이터를 활용해 적절한 알고리즘을 학습시켰는지를 확인하기 위한 일련의 모든 과정을 (물론 법률적으로 문제가 되지 않는 선에서) 여러분에게 최대한 공개하고 있는지, 필요하다면 여러분이 직접 확인할 수 있는지를 요청하시기 바랍니다. 만약 위와 같은 검증 요구사항에 맞추어 데이터나 알고리즘을 자신있게 공개하지 못 한다면, 어떤 이유에서인지를 한 번 재고해보실 필요가 있습니다.

 

27.png

 

만약 어떤 항목을 점검해야 하는지에 대해 더 구체적인 예시와 항목들이 필요하시다면 한 가지 팁을 드리고자 합니다. GS 인증 등 IT/소프트웨어 분야에서 다양한 인증사업을 하고 있는 한국정보통신기술협회(TTA)에서 최근 과기부와 함께 “신뢰할 수 있는 인공지능 개발 안내서”를 분야 별로 만들고 지속적으로 고도화하고 있습니다. 2022년의 “일반" 분야의 경우 60여개가 넘는 검증항목을 준비해두었으며, 개별 항목에 대해서 어떻게 검증하면 좋은지에 대한 구체적인 예시와 방법이 소개되어 있습니다. 검증의 커버리지는 AI 알고리즘과 데이터는 물론이고, 서비스 관점에서 오해나 부작용이 없도록 AI 서비스가 제공되는지, 만일 문제가 생겼을 때 어떻게 대응하고 있는지, AI 서비스 시스템 인프라는 잘 구비되어 있는지 등 AI 서비스의 사실상 모든 부분을 전방위적으로 포함합니다.


제네시스랩은 TTA와 직접 함께 위 개발안내서를 현장 적용하여 제네시스랩 AI 면접에 대한 신뢰성에 대해 제반 점검을 실시하였으며, 그 결과 적용가능한 모든 검증항목에서 Y, 즉 “충족하고 있음" 판정을 받아 신뢰성 평가를 성공적으로 마무리하였습니다. HR 분야 최초이자 유일한 사례로서의 쾌거입니다. 이번 세션의 초입에도 말씀을 드렸지만, 저희는 항상 이런 모든 검증에 열려있으며, 이를 통해 AI 를 투명하게 발전시키는 것이 안전하고 실제로도 도움이 되는 AI 를 만드는 길이라고 생각합니다. 만약 여러분들께서 도입하시려는 AI 의 신뢰성을 A 부터 Z 까지 모두 검증하는 것이 어려우시다면, TTA 와 같은 외부기관과의 신뢰성 평가에 적극적으로 참여하고 있는지를 꼭 살펴보시기 바랍니다.


마지막으로, 여러분이 적용하려는 그 AI 면접이 실제로 여러분들의 회사에 잘 맞는지에 대해 여러분의 데이터를 이용해 검증을 요청하시기 바랍니다. 제각기 스스로의 데이터로 자신의 솔루션이 좋다는 주장을 하겠지만, 여러분의 실제 면접 데이터를 활용하여 검증하는 것이 제일 확실한 방법일 겁니다. 이를 위해 두 가지 정도의 방법을 제시해드립니다.


먼저, AI 면접의 결과가 여러분의 대면 면접 결과와 타당도를 갖는지 검증해보시기 바랍니다. 응시자에게 면접 AI 모델이 준 점수와 실제 대면 면접 점수를 두고 통계 분석을 실시하여, 둘 사이 유의미한 상관관계가 존재하는지 등을 검증해볼 수 있습니다. 만약 충분히 높은 상관관계가 나온다면 대면면접의 일부 프로세스를 대체할 수도 있겠습니다. 제네시스랩의 고객사 분들 중에서는, 이러한 검증 과정을 거쳐 N차 프로세스를 N-1차 프로세스로 단축하신 분들도 실제로 계십니다.


또 다른 방법은, 여러분 회사의 실제 대면 면접관과 AI 면접 점수를 통계분석하여 검증하는 것입니다. 예를 들어, 100여명의 응시자 영상에 대해 AI 가 준 점수, 여러분 대면 면접관이 실제로 준 점수를 놓고 통계적으로 유의미한 상관관계가 발견되는지를 확인하는 것이죠. 저희 사례 중에는 0.7 이상의 높은 상관계수를 확인하고 전면 도입을 결정하는 사례도 제법 있었습니다. 0.7 의 상관계수는 HR Analytics 분야에서 전통적으로 서로 다른 사람들이 매우 일관된 평가를 하고 있음을 나타내는 수치입니다. AI 모델이 한 명의 면접관으로서 보아도 다른 사람들과 매우 일관된 평가를 내렸다는 뜻이죠.


여러분들이 검증하고자 하는 AI 솔루션이 이러한 과정에 열려있는지, 필요한 통계분석을 제공하는지를 확인하시기 바랍니다. 만약 그 회사가 AI 솔루션을 정말 열심히 만들었고, 이를 더욱 신뢰할 수 있는 형태로 발전시키고자 하는 의지가 있다면 먼저 나서서 응할 것입니다. 최소한, 저희는 그렇게 해왔고 앞으로도 그렇게 할 것입니다. 이러한 통계분석을 통해 고객사 별 맞춤형 모델을 제공하며 개별 HR 실무 환경에 맞추어 AI 모델을 제공해오기도 했구요.

 

▶️Chapter 5. “신뢰할 수 있는 AI", 그리고 여러분의 역할

 

의심하고 검증하십시오. 그렇게 해서, 정말로 신뢰할 수 있는 AI 를 찾아내고 도입하시기 바랍니다. 면접관 교육이나 대면 면접 스케줄링, 사람으로서 면접관이 갖는 편향에 대한 통제 등등, AI 면접이 가지고 있는 장점이 적지 않다는 것은 많이들 잘 알고 계시리라 생각합니다. 하지만 그럼에도 불구하고 AI 면접을 도입하는 것이 쉽지 않은 것은, 우리가 AI 면접을 신뢰할 수 있는지에 대한 확실한 기준이 없기 때문이겠죠. AI 에 대한 막연한 경외감이 이제 사라지고 있습니다. 그리고, 그 자리를 AI 에 대한 막연한 불안감이 대신하고 있는 것 같습니다. 여러분, 다시 한 번 말씀드리지만 제가 드린 가이드라인들이 결코 완벽한 정답은 아닙니다. 그럼에도 만약 제가 드린 이야기가 설득력이 있었다면, 이를 시작점으로 삼아 부디 막연한 불안감을 털어내시고 직접 의심하고 검증해보시기 바랍니다.


그리고 AI 면접의 장점만을 취하셔서, 들쑥날쑥했던 선발 기준을 명확하게 하고, 운영성 업무를 더욱 편리하고 높은 수준으로 자동화하시기 바랍니다. 그리고 여러분께서는 그만큼 절약되는 시간과 비용을 전략적 HR의 역할을 수행하는 데에 투입하시기 바랍니다.


저희 또한 처음부터 AI의 신뢰성에 대한 고민을 지금 정도로 깊게 해온 것은 아닙니다. 그러나 서비스를 제공하는 과정에서 신뢰성에 대한 고민이 점점 깊어지게 되었고, 때로는 이로 인해 잘 눈에 띄지 않는 부분들까지 하나하나 검증하고 확인하면서 먼 길을 돌아왔습니다.


그럼에도 불구하고 쉬운 길을 택하지 않은 것은, 신뢰할 수 없는 AI 는 결코 살아남을 수도 없고, 진정 우리에게 필요한 AI 가 될 수 없다는 기술적 신념을 가지고 있기 때문입니다. 물론 지금도 제네시스랩은 그 과정 중에 있으며, 재작년 보다는 작년이, 작년보다는 올해의 AI 모델이 더욱 신뢰할 수 있는 AI 가 되고 있습니다. 그 과정에서 TTA 와의 AI 신뢰성 평가에서 모든 항목에 대해 Y 로 평가받는 성공적 결과를 얻어낼 수 있었구요.


이와 같이 제네시스랩은 HR 의 AI transformation 을 포기하지 않고 발전시켜 나갈 것입니다. 제네시스랩은 HR 분야에서 AI 를 가장 제대로, 잘 하고 있는 회사니까요.


여기에 모이신 HR 전문가 여러분, HR 의 AI Transformation 의 물결은 이미 시작되었습니다. 제네시스랩에게도, 그리고 여러분에게도 HR 분야 AI Transformation 의 물결은 거부할 수 없는 거대한 흐름이 되었습니다. 이 거대한 흐름을 함께 넘을 파트너를 찾고 계신다면 여러분, 제네시스랩이 한 가지 대안이 되어드리겠습니다. 저희와 함께 AI 를 의심하고 검증하고 발전시켜, 함께 HR 분야의 AI Transformation 을 선도해나가기를 기대합니다.

 

데이터와 AI, 인간의 협업을 통한 HR의 변화와 성과 사례 (한국전력공사)

 

▶️PART 1. 한국전력공사는 왜 HR에 Data science를 도입했을까? 

 

◆ Data science 도입의 시작

 

▶ 2017년도에 우연히 해외 IT 인력 유치를 위해 미국의 컨퍼런스 및 채용박람회에 참석하게 되면서 Data Science의 중요성을 알게 됨.

 

▶ 출장 보고 후 Data science lab 설립이 필요함을 건의해서 Data Science Lab을 설립하게 됨.

 

▶ HR Digitla Transformation TF 를 시작하면서 마스터 플랜을 수립하였지만 실패함. 그리고 사실상 조직이 와해됨.

 ▹ 협업 부족/ 전담 조직의 부재

 ▹ 내부 기술력 부족

 ▹ 내부 공감대 형성 부족

 ▹ Sponsorship 부족

 

◎ 해결방안 1) 내부 기술력 확보 : Two Track 전략

 

▶ 내부 DS 과학자 육성과 외부인재채용 둘다 적용해보았음

▶ 결론은 내부 DS과학자를 육성했을 때 더욱 성과를 빠르게 얻을 수 있음을 확인하였음.

▶ 그리고 외부인재들로 Data Science Lab을 구성함

 


28.png

 

◎ 해결방안 2) 전담조직 신설

 

▶ 예전과 다르게 HR Analytics 팀을 신설하고, 디지털변환처, ICT운영처, 데이터 사이언스 LAB과 긴밀히 협업할 수 있는 시스템을 구축함

 

◎ 해결방안 3) Snowball Strategy

 

▶ 왜 공기업에서 이런걸 할까? 라고 이야기 하는 분들이 많은데, 공조직에서 해야한다고 생각함

 ① 이직율이 굉장히 낮음: 1인당 데이터를 보면 근속년수가 굉장히 길어서 개인 데이터가 사기업에 비해 월등히 많이 축적이 됨.

 

 


29.png

 

② 공정성, 투명성: 데이터 기반으로 공정하고, 투명하게 관리되어야 하는 조직. 상하 위계가 뚜렷하고 노조의 힘이 센 조직이기 때문에 상위직급자나 노조를 설득할 때도 데이터를 기반으로 했을 때 설득력이 생김, 공정성에 민감한 MZ세대의 공감을 얻을 수 있음

 

▶ 이와 관련하여 세부적인 프로젝트를 많이 함

직무 분석, 승진제도 분석 (전후 분석) 등을 진행함

작년에는 대규모 인사제도 개선을 위해 임직원들의 의견을 받았는데, 토픽모델링 기법을 적용하여 의견을 모았음

 

▶ 다른 부서로부터 의뢰가 들어오기 시작함

초기에는 모으기 힘들었던 데이터였지만, 데이터가 자동적으로 늘어나고 쌓이게 됨

실무 부서들의 사일로가 해소되면서 데이터가 통합되기 시작함

 

▶ 모든 데이터를 정제하고 시작해야할까?

필요하고, 자주쓰는 데이터 부터 정제하면서 시작하는게 좋음

 

▶ 처음엔 작은 프로젝트로 시작하면서 점차 큰 프로젝트로 확장해나감

 

30.png

 

⟫ 꼭 거창하고 Fancy한 결과물을 보여줘야 한다는 생각보다는 경영진이 궁금해 하거나 필요로 하는 것들을 하나씩 해결해나가는 방식이 중요함.

 

▶️PART 2. 한전의 Data Science 도입 방법

 

◆ (1) Visualization: 시각화


▶ 인력 중장기모델

 

31.png

 

▶ 처음에 HRA가 뭐하는 조직인지 궁금해할 것 같아, 당시 화두였던 MZ세대가 우리조직에 어떤 영향을 미칠지에 관해 데이터를 시각화를 해서 보여주었음

 

▶ 성별과 연령을 기준으로 butterfly Chart를 보여줌

 

▶ 2020년도에는 MZ세대가 50%를 차지하게 되는 것이 보임. 2030년에는 MZ세대가 70% 이상을 차지하는 것으로 보임. 하지만 2020년 A지점을 보면 인원이 줄었고, B지점에서는 인원이 확 늘어난 것을 확인 할 수 있음.

 

▶ HR에 주는 이슈는 호리병 같은 구조를 보이게 되면서 업무 승계적 관점에서 기성 직원들이 업무승계를 유효하게 할 수 없을 수 있고, 안정적인 전력공급에 리스크가 발생할 수 있다는 것을 예상할 수 있고 이것을 방지하기 위한 인력 구조 정책을 수립해야함을 알 수 있음. 긍정적인 측면에서는 기존 직원들의 불합리한 관행 같은 문화가 승계가 안될 가능성이 있기 때문에 조직문화 차원에서 긍정적인 영향이 있을 수 있고, 이와 더불어 기성세대와 어떻게 하면 조화롭게 조직을 함께 해나갈 수 있을까에 대한 정책을 고민할 수 있었음

  

◆ (2) Statistics: 승진제도 영향력 분석

  

▶ 승진 평가를 할 때 가장 영향을 미치는 요소가 “승진심사평가위원회”의 점수인데, 평가위원들을 보니 직군이 다양했음. 동일직군의 1표가 타 직군의 1표와 동일하다고 볼 수 있을지에 대해 의문이 있었음. 

 

32.png

▶ 분석을 해보니 타 직군 후보자 심사시 근속연수에 비례해서 유사하게 가고 있고 분산이나 표준편차가 굉장히 낮음을 발견할 수 있었음. 이는 평가시 근속연수가 굉장히 많은 영향을 미친다고 해석할 수 있음

 

▶ 반대로 동일직군 후보자의 평가시 근속연수와는 다른 경향성을 보임. 이는 근속연수 외에 다른 영향을 미치는 요인이 있을 가능성이 있다고 볼 수 있음

 

33.png

 ◆ (3)ML/DL: 다면평가 감정분류

 

▶ 다면평가 내용을 워드클라우드로 분석함

 

▶ 문맥에 따라서 달라지는 단어의 의미를 컴퓨터가 이해할 수 있을까? → 감정분류를 적용함

 

▶ Transfer learning: 초대규모 언어모델에 다면평가 데이터를 붙여서 워드 임베딩하는 방식을 적용함 : 사전 학습 모델 BERT 기반으로 다면평가데이터로 미세조정을 하여 딥러닝 학습 데이터를 준비함

 

34.png

  

▶ 평가자중심에서 피평가자중심(피드백)으로 변해가는 상황에서 어떻게 하면 다면평가시스템을 개선할 수 있을지를 고민하기 시작함

 

▹ 시계열 분석: 시계열적으로 피평가자의 매년 변화하는 행동을 분석하여 피드백 하는 방식이 필요함

투명성, 신뢰성: 텍스트 선별과정에서 담당자의 선입견이나 편향의 개입을 최소화 하여 투명하게 분석하여 신뢰성을 주어야 함

▹ 평가 활용성: 평가 활용도를 높여야 함

 

▶ 다면평가 텍스트 250만개를 기반으로 감정을 분류하여 훈련데이터를 생성하고 딥러닝 한 후 테스트 데이터와의 오차 여부 비교를 통해 성능을 검증

 

* 출처 : 제네시스랩, viewinter HR, 2023.02.28

지인에게 추천하기 읽어보신 내용이 도움될만한 지인에게 추천해주세요!