360º 다면평가 데이터 분석 사례 (파이썬으로 시각화)

다면평가라 하면 어떤 대상자에 대해 그 사람의 상사, 동료, 부하 등 다양한 사람들로부터 정보를 수집하는 방식을 의미한다. 주로 보상과 직결되는 인사 평가(고과)에 활용하기보다는 이 결과를 본인에게 직접 피드백함으로써 “주변 사람들은 당신을 이렇게 바라보고 있네요. 당신 생각과는 이런 점이 좀 차이가 있는 것 같네요.” 뭐 이런 메시지를 전달하기에 효과적이다.

모든 진단이나 설문은 이 설문을 안내하는 방식과 그걸 대하는 구성원들의 인식 혹은 문화가 가장 중요하다. 평소에 인사팀이 이러한 진단을 공정하게 진행하고 그 결과를 투명하게 전달해왔다면 건강한 분위기나 문화가 형성되어 있을 수도 있는데, 평소에 안 좋은 방식으로 활용이 되었다면 ‘이걸 또 어디에다가 활용하려고… ‘ 혹은 ‘왜 자꾸 귀찮게 이런 거 시켜!’ 식의 불신이 조직 내에 가득차 있을 수도 있다.


아무튼 올해 1월에 아주 가벼운 다면평가 프로젝트를 했는데 결과를 짧게 리뷰해보려 한다.

다면평가는 조직마다 패턴이 모두 다르게 나타나기도 하고, 할 때마다 개인적으로 항상 고민되는… 생각해볼 문제가 있기 때문이다.


프로젝트 개요

고객사

고객사는 100 미만 규모의 작은 조직이었다. 그러나 실제로 대한민국 수도권 사는 사람이라면 그 조직 이름을 절대 모를 수 없는… 뭐 그런 유명한 조직이다. (비밀 보장을 위해 자세한 내용은 굳이 설명하지 않는다.)

진단 대상

여기서 관리자나 직책자가 아닌 일반 구성원 68명 전원이 진단의 대상자였다. (사실 관리자들을 대상으로도 다면진단을 했으나 복잡하게 설명하기 귀찮으니 본 포스팅에서는 팀원 결과만 소개하려 한다.)

진단 항목 (문항)

진단 항목은 총 5개의 역량이었다. 문항은 각 역량마다 4개씩, 총 20개의 리커트 척도(1~5점)로 이루어져 있었다.

문항 수도 매우 적고 애초에 딱 정해져 있던 거라 딱히 손 볼게 없었다. 그냥 편하게 진행했다.

아, 주관식 문항도 있었으나 본 포스팅에서 소개하지 않으려 한다. 다른 포스팅에서 주관식 응답 텍스트 분석만 소개한 게 있으니 참고하자.

평가자

본인, 상사, 동료(한 대상자에 대해 최소 3명, 평균 4.5명)들이 진단의 평가자로 참여했다.

데이터 살펴보기

총 442건의 응답이 수집됐다. 엑셀 행으로 따졌을 때 442개 행이라는 얘기다.

예시로 보면 이렇게 생겼다.

매우 심플한 형태다. 이걸 역량별로 평균을 내고, 또 5개 역량에 대한 평균(총점)을 구해서 살펴볼 거다.

본 프로젝트에서 데이터 분석 및 시각화는 모두 파이썬으로 수행했다. 사실 이렇게 가벼운 수준이면 엑셀로 후딱 돌리는 게 편하긴 한데, 연습 삼아 해봤다.

아무튼 파이썬 pandas로 직관적으로 계산하면 이런 방식이 되겠다.

df["역량A"] = (df["역량A1"] + df["역량A2"] + df["역량A3"] + df["역량A4"])/4
df["역량B"] = (df["역량B1"] + df["역량B2"] + df["역량B3"] + df["역량B4"])/4
df["역량C"] = (df["역량C1"] + df["역량C2"] + df["역량C3"] + df["역량C4"])/4
df["역량D"] = (df["역량D1"] + df["역량D2"] + df["역량D3"] + df["역량D4"])/4
df["역량E"] = (df["역량E1"] + df["역량E2"] + df["역량E3"] + df["역량E4"])/4

df["총점"] = (df["역량A"] + df["역량B"] + df["역량C"] + df["역량D"] + df["역량E"])/5

아, 그리고 결측치나 오류 이런 건 없다. 애초에 없도록 설계가 되었으니까. HR 영역에서 전통적인 방식으로 수집하는 데이터들은 웬만하면 이렇게 깔끔한 편이라 전처리 할 게 딱히 없다. (물론 케이스 바이 케이스)

아무튼 이제 결과를 요약, 시각화해서 후딱 살펴보자. 시각화에는 파이썬 라이브러리 seaborn을 사용했다. (코드 소개는 생략)


분석 결과

1. 총점 분포 (평가 집단에 따라)

일단 kdeplot으로 분포를 살펴봤다.

4점 대에 특히 몰려 있는 걸 알 수 있다. 특히 본인 평가 점수가. 그러나 크게 드라마틱해보이진 않는다.

그리고 이 데이터는 KDE로 스무딩, 평탄화 된 것이라 애초에 MAX 5, MIN 1임에도 불구하고 플롯의 꼬리가 그 범위를 넘어가는데 이건 어쩔 수 없다. 내버려두자. 패턴을 발견하기 위해 그려본 거니까.

이번엔 violinplot으로도 그려봤다.

당연히 비슷하다.

그래서 이번엔 개별 점수를 표시하기 위해 swarmplot으로 그려봤다.

오… 이렇게 보니 정작 동료 평가가 경우가 눈에 띄었다. 다른 사람에 대한 평가는 여러번 해야 하고 귀찮으니까 그냥 4점으로 쭉 긁은 사람들이 꽤 많은 걸로 추측할 수 있다. 그리고 점수를 정말 바닥으로 깔아 준 outlier들도 눈에 띈다.

boxplot도 그려봤다.

IQR, 수염이 본인, 상사,동료 평가 순으로 길어지는 게 눈에 띈다.

추가로 평균 점수를 표시해서 본인 평가가 제일 후하고, 동료들이 제일 짜게 점수를 준 걸 나타냈다.


* 생각해볼 문제 (1)

과연 어느 집단이 가장 객관적인 평가를 한 걸까? 아니, 애초에 객관적인 평가라는 게 존재할까?

어차피 다면평가는 각자가 보는 관점에서 평가를 하는 것이 그 목적이니까, 그 차이를 보려고 하는 거니까 객관성을 논하는 질문은 크게 의미가 없다. (물론 진단에 참여하는 “태도”는 좀 다른 개념이고, 이건 매우 중요하다.)

* 더 생각해볼 문제 (2)

다면평가를 하고 나면 필요에 따라 상사나 동료들의 점수에 가중치를 적용해 일종의 종합 점수를 산출하기도 한다. 예를 들면 상사평가 0.6, 동료평가 0.4의 가중치로 합산하기.

물론 인원이 많아지면 HR에서는 관리가 필요하고 결국 나래비, 줄세우기를 하기 위한 방안을 찾다 보니 그렇게 하는 거긴 한데… 과연 이런 방식으로 점수를 합산해서 활용해도 될까?

이런 접근은 굉장히 주의해야 한다. 애초에 관계에 따라 바라보는 관점이 다른데 점수를 종합해버리면 이러한 정보들이 다 사라지는 셈이기 때문이다. 어떤 사람은 본부장 입장에서는 성과 잘 내고 믿음직한 팀장이지만, 부하직원들이 보기엔 정말 성깔 드럽고 위험한 인물일 수도 있다. 당연히 그 반대일수도 있고.

물론 이런 이유 때문에 측정 항목(역량)을 고르게 넣어서 어떤 걸 잘 하고, 어떤 건 못하는지 구분하려는 노력을 해보긴 하지만, 다면평가에서는 이런 설계대로 의도대로 평가자들이 응답해주지 않는다. (통계적으로는 요인분석했을 때 결코 요인들이 명확하게 구분이 안 된다.) 나에게 좋은 사람이면 모든 영역에서 전반적으로 후하게, 내 마음에 안 들면 모든 영역에서 전반적으로 박하게 점수를 주는 게 다면평가의 일반적인 패턴이다.

아무튼.

2. 역량별 평균 점수 (평가자 집단에 따라)

이번엔 5개 역량 별로 나눠서 그려봤다. pointplot으로.

평균 점수는 본인>상사>동료 순으로 나타나지만, 역량별 점수의 패턴은 모든 그룹에서 거의 비슷하게 나타나는 걸 알 수 있다.

이 역량 점수를 순위(rank)로만 단순하게 표현하면 아래와 같은 모양새다.

“역량 C는 우수하다”고 생각하는 반면, “역량 A와 D는 상대적으로 미흡하다”고 느끼는 거다. 그것도 모두가.

이렇게 본인들 스스로 부족한 부분이 무엇인지, 잘 하는 부분이 무엇인지에 대한 관점이 비슷하면 일치하는 관점이나 의견을 구성원들에게도 공유하고, 전사적인 차원에서 어떤 점을 중점적으로 개발하거나 신경쓸 것인지 합의하기에 너무나 좋은 기회인 셈이다. 다 함께 초점을 맞출 수 있으니까.

일단 전반적인 결과 요약은 이 정도만 하자. 물론 이 외에도 소속, 나이, 직급, 성별, 입사경로, 성과평가 등에 따라 집단을 구분해서 집계해볼 수도 있고, 주관식이랑 같이 분석해볼 수도 있고, 깊이 들어가면 좀 더 이것저것 해볼 여지가 있겠으나 애초에 대상자 수가 너무 적고, 그냥 개개인 점수 하나씩 들춰보는 게 가능한 수준이라 이번 프로젝트에서는 큰 의미는 없으니.

그리고 그보다 더 중요한 얘기가 남아 있다.

3. 상사 평가 점수 분포 ★

(프로젝트 개요에서 잠깐 언급했지만) 이번 진단의 대상자는 직책이 없는 팀원이고, 상사들은 보통 자신이 맡고 있는 여러명의 부하직원을 평가하기 때문에 각 대상자에게 어떤 점수를 주었는지 직접 시각화해서 보기로 했다.

그랬더니 이런 모양을 그렸다.

  • B상사: 8명의 부하직원에게 모두 평균 4.3 이상의 후한 점수를 주었다. (A학점 퍼주는 교수 스타일이다.)
  • F상사: 4명의 부하직원 중 3명은 거의 만점에 가깝게 평가했고, 나머지 한 명은 점수를 고의적으로 매우 낮게 주었다. 심지어 이 점수는 상사 평가에서 꼴찌다. (다분히 고의적이다.)
  • G상사, H상사: 7명의 부하직원들에게 모두 거의 동일한 수준의 점수를 주었다. (부하직원을 차별하는 사람으로 보이기 싫으니 적당히 비슷한 수준으로 맞춰준 것으로 보인다.)
  • O상사: 6명의 부하직원에게 모두 3.8 미만의 낮은 점수를 주었다. (학점 잘 안 주는 깐깐한 교수 스타일이다.)

점수를 하나하나 들여다 보면 이렇게 평가자(상사)마다 스타일이 다른 걸 알 수 있다.

위에서도 언급했지만, 이렇게 관점이나 기준의 차이가 명백한데 굳이 이걸 또 뭐 합산해서 종합 점수를 어떻게든 매기고 줄을 세우는 게 과연 합리적인 걸까.

오히려 개인의 평가 경향성에 대해 직접적인 피드백을 하는 게 중요하다.

예를 들면 B상사에게 “다른 사람들은 이 정도로 점수를 매겼는데, 당신은 모든 부하직원들에게 극단적으로 높은 점수만 부여하셨군요. 공정하게, 최선을 다해 평가하신 게 맞나요? 이런 평가 결과는 그 대상자에게 도움이 안 되고 오히려 좋은 성장의 기회를 빼앗는 꼴입니다. 대상자의 건강한 자기 인식과 개발에 도움을 주고 싶다면 어떤 점을 잘하고, 혹은 못하고 있는지, 어느 정도 수준으로 신경 써야 할지 투명하게 의견을 전달하는 게 가장 중요합니다.” 과 같은 식의 메시지를 전달할 수 있을 거다. 단순히 자신이 평가한 점수가 어느정도 수준인지 알려주는 것만으로도.

물론 위 플롯을 있는 그대로 보여주면 건 이상한 해석의 여지가 많아지고, 그렇다고 수치로 뭉뚱그려 전달하자니 임팩트가 부족할 수 있으니 본인을 제외한 다른 사람들을 점수는 하나로 모아서 전체 분포를 그리고 그 안에서 그 사람이 평가한 점수를 하이라이트해서 본인이 어느 정도 수준으로 점수를 부여한 것인지 직관적으로 확인할 수 있도록 하는 게 좋을 것 같다.

그래야 다음 번에는 좀 더 최선을 다해 평가하고, 서로의 눈 높이를 맞추고, 그 결과를 효과적으로 활용할 수 있는 방향으로 진단, 설문에 대한 문화가 흐르지 않을까.

일단 이번 프로젝트 소개는 일단 여기까지. (애초에 너무 심플한 데이터라 이 이상 설명할 거리가 없기도 하고.)


마치며

아무튼 다면평가 프로젝트는 할 때마다 느끼는 거지만, 시작하기 전에 아래와 같은 질문을 먼저 해봐야 한다.

  1. HR에서는 다면평가를 왜 하는가, 결과를 어떻게 활용하려 하는가
  2. 구성원들은 회사에서 다면평가를 왜 하는지, 결과가 어떻게 활용되는지 명확히 알고 있는가

그래서 진단을 실시하는 목적이나 배경을 최대한 투명하게 안내하고, 결과에 대해서도 (특정 개인이나 조직에 피해가 가지 않는 선에서) 최대한 공개함으로써 이런 진단이나 설문이 서로에게 도움이 된다는 건강한 인식과 신뢰의 문화가 조성되어야 한다. 물론 “신뢰”를 쌓는다는 건 어려운 일이다. 대인관계에서도 마찬가지 아닌가. 신뢰는 투명하고 정직한 태도를 오랫동안 일관적으로 보여야 쌓이는 법이다. 그러나 한 번이라도 실망을 안기게 되면 와장창 무너지기도 하고.

일단 이번 포스팅은 여기까지.

추천 글


댓글 남기기