Naver News Comment Analysis (1)

올초(3월)부터 같은 팀의 재명님과 네이버 뉴스 댓글 데이터로 사이드 프로젝트를 시작했다. 직접 크롤링하신 데이터였는데, 그 양이 방대해서 "이 정도 데이터가 있으면, 뭔갈 해볼 수 있겠지!" 라는 가벼운 마음으로 사이드 프로젝트 제안을 덥석 받아물었다. 그리고 여느 사이드 프로젝트가 그렇듯 그 과정은 결코 생각만큼 가볍지는 않았더랬다...

마침 작년 사내 Hackday에서 Abuser Detection 분석으로 좋은 성과를 얻었던터라 어뷰저 분석을 해보고 싶었고, 그 결과로 나름 재밌는 것들이 발견되었다. 하지만 좋은 발표 자리(이를테면 파이콘이라든지,,,)에 등록할 시기를 놓쳐서 논문을 arXiv에 올려두듯이 블로그에 댓글 분석한 내용을 공유하고자 한다.

내용은 크게 뉴스 댓글 수집뉴스 댓글 분석 파트로 나뉘며, 전자는 재명님이 후자는 내가 주로 담당해서 정리하였다. 이번 글은 뉴스 댓글 분석 1편이다.

Data

수집 기간

2006.04.26 ~ 2018.05.25 (수집 시점: 2018.10)

수집 내용

네이버 뉴스의 6개 분야별(정치, 경제, 사회, 생활/문화, 세계, IT/과학) 가장 많이 본 뉴스 30건

네이버 뉴스 > 랭킹뉴스 화면 예시

같은 기사이지만 2-3일 동안 랭킹뉴스에 오를 수 있으므로 중복 기사를 제거해주었다. * 중복 제거 전 기사 #: 751,751 (약 75만) * 중복 제거 후 기사 #: 643,226 (약 64만)

분석에 사용한 필드

  • 기사: 기사 id, 기사 제목, 기사 입력 시각, 기사 내용, 언론사, 기사 감정
  • 댓글: 댓글 작성 기사id, 작성자 hashed id, 댓글 작성 시각, 댓글 내용, 공감수, 비공감수

Basic Statistics

중복 제거된 기사에 대해, 기사 작성 시점을 기준으로 한 달 단위로 기사에 달린 코멘트를 집계해서 그래프를 그리면 다음과 같다.


네이버 뉴스 개편 history[1] 와 엮어서 이 그래프를 해석하면 재밌어진다.

2009년

  • 2009년 개편 때는 메인 페이지 뉴스 박스 편집권을 신문사에 넘겼고, 기사를 클릭하면 바로 신문사 링크로 연결되게 바뀌었다. 이로 인해 네이버 뉴스의 트래픽이 감소하게 되었고 예전과 비교해서 리플 개수나 조회수가 상당히 줄어들었다.

2010년

  • 2010년대 초반에 뉴스 스탠드가 도입되면서 메인화면 뉴스 편집권을 포기하게 된다. 기사를 클릭하면 기본적으로 네이버 페이지가 아닌 언론사 사이트로 연결된다.
  • 모바일로 댓글을 달 수 없었다. 또한 댓글 형태가 댓글 제목을 클릭해야만 내용을 볼 수 있는 형태라서 결과적으로는 당시 뉴스 댓글 란은 지금보다 훨씬 폐쇄적인 모양새였다.

2012년

  • 검색과 지식인의 인기를 바탕으로 네이버가 2012년 1일 방문자 1800만 명을 기록할 정도로 성장하는 동안, 네티즌의 뉴스 읽기 방식도 달라졌다. 종이신문을 읽거나 신문방송의 홈페이지를 찾아가는 대신, 네이버나 다음 등 포털의 뉴스캐스트를 통해 여러 언론사 기사를 한꺼번에 읽는 사람들이 크게 늘어난 것이다. 이 때문에 뉴스 편집 기능을 수행하는 포털을 언론사로 봐야 할 것이냐 아니냐 하는 논쟁이 언론관련 심의기구 등에서 벌어지고 있기도 하다.[2]
  • 2012년 중반부터 모바일로도 댓글을 달 수 있게 되었다.
  • 네이버 아이디로 로그인하지 않아도 트위터나 페이스북 등의 SNS 계정으로 댓글을 달 수 있게 되었다. 이 때문에 네이버 영화 평점 조작처럼 추천수 조작하기도 쉬워졌다. 네이버, 미투데이, 트위터, 페이스북, 다음으로 한 번씩만 로그인해도 공감 및 비공감 5개를 줄 수 있다.

2016년

  • 10월, JTBC에서 최순실의 태블릿 pc를 발견하였고 최순실 게이트 사건의 포문이 열리기 시작했다. (트래픽 측면에서 네이버 뉴스는 최순실에게 감사하는 마음이 없지 않아 있을 것이다...)
  • 그리고 동시에, 드루킹의 댓글 조작 사건도 시작[3]되었다.
    • 2018년 5월 말, 특검법이 통과된 이후에 댓글이 줄었다는 기사[4] 가 보도되었다. 2018년 6월 이후의 댓글이 있었다면 그간 댓글부대의 위력이 어느 정도였는지 가늠해볼 수 있었을 것이다.

결론적으로 2016년 후반부 이후 폭발적인 댓글 수의 증가는 정치 및 사회 영역의 엄청난 트래픽 덕분이었을 것이다. 가설 검증 차원에서 섹션 별로 나누어 같은 방식으로 댓글을 집계해 보았다. 섹션 별 기사 댓글 (누적 그래프) 타 섹션과 비교한 정치 기사 댓글 그래프 타 섹션과 비교한 사회 기사 댓글 그래프

News Sentiment Analysis

네이버 뉴스는 기사에 "좋아요" 를 시작으로 "훈훈해요", "슬퍼요", "화나요", "후속기사 원해요" 의 label을 달 수 있게 만들었다. - "좋아요": 2014년 초 시작 - "훈훈해요", "슬퍼요", "화나요", "후속기사 원해요": 2017년 초 시작

2016.10.20 기사. 2017.10.20 기사. 다섯 가지 감정 모두 표를 받(긴)했다.

"좋아요" 만 있을 때와 다섯 가지의 감정이 있을 때의 추이가 또 재밌다.


"좋아요" 외의 다른 감정이 허가된 순간 이후로 "화나요" 가 급격히 증가한다.

정치


  • 참고: 사드배치 (2017.03), 문재인 당선 (2017.05)[5], 평창 동계 올림픽 (2018.02), 이명박 수감 (2018.03)[6]

경제

사회

문화


  • 2018년 2월에는 무슨 일이.. (추운 날씨, 성추행 등의 사건 때문으로 추측됨)

IT

세계

Conclusions

여기까지는 기초적인 데이터 탐색 작업이었다. 간단히 시간 순으로 댓글 수를 집계하기만 해도 재미있는 분석 결과를 얻을 수 있었다. (가령, 박근혜-최순실 게이트가 얼마나 큰 이슈였는지, 뉴스는 대부분 우리를 열받게 하는 내용이라든지 등)

이 다음 분석은, 의심하기만 했던 댓글 어뷰저 집단이 실제로 존재하는지에 대해 다룰 예정이다. 마침 댓글 수집 기간과 드루킹의 댓글 조작 기간이 맞물려 있어서 분석해 볼 수 있는 데이터가 손에 쥐어졌다. 최대한 선입견없이 담백한 분석을 해보려고 노력했다. 정말인지 아닌지 다음 글에서 확인해보자.

References

Comments