-
추천시스템 평가 지표 - 제공률(Coverage), 다양성(Diversity), 참신성(Novelty)데이터과학/추천시스템 2022. 7. 13. 09:00728x90
Coverage(제공률)
- 제공할 수 있는 추천 데이터의 비율
- 영화 평점 데이터 중 평점이 없는 데이터를 IMDB에 적용한다면 추천시스템의 제공률은 낮아짐(IMDB의 영화 데이터가 훨씬 많기 때문)
- 제공률은 정확성과 상충할 수 있음
- 추천하기 적당한 균형점 찾기가 쉽지 않음.
- 제공률이 중요한 이유는 새로운 데이터가 사용자에게 얼마나 빨리 나타나는가의 문제
- 누군가 아마존의 책을 사가기 전에 책은 추천 목록에 뜨지 않을 것임.
Diversity(다양성)
- 추천 시스템이 얼마나 다양한 범주의 데이터를 사용자에게 제공하는 지를 의미
- 다양성이 낮다 = 사용자가 읽는 책의 다음편을 추천하는 것, 다른 작가나 관련된 영화 추천을 하지 않는 것
- 주관적 요소같지만 측정 가능한 요소(많은 추천 시스템이 데이터 간 유사성을 계측해 작동하기 때문)
- S = 추천시스템에서 데이터끼리 번갈아 짝을 지어 낸 유사성 값의 평균(추천 목록 데이터의 유사성을 나타내는 측정 값)
- 다양성은 유사성의 반대 개념
$$ Diversity = (1 - S) $$
- 다양성이 값이 높다는 것은 추천 시스템에서 좋은 의미는 아님. 아무거나 추천한다는 의미
Novelty(참신성)
- 참신성 또한 추천 시스템에서 좋은 의미는 아님.
- 추천 데이터의 인기도를 나타내는 척도
- 대부분의 데이터는 대중적인 데이터가 아니기 때문에 참신성을 높이려면 랜덤 추천하면 됨.
- 사용자가 기대하는 추천 목록을 추천하게 된다면, 추천 시스템에 대한 사용자 신뢰를 얻게 됨.
- 사용자의 관심을 반영하지 않은 상품만 추천하면 사용자 신뢰가 손상, 고객이 온라인 상점을 떠날 수도 있음.
- 따라서 대중적인 아이템과 비 인기 아이템을 균형있게 추천하는 지점을 찾아야 함.
- 틈새 수요를 만족하기 위해 롱테일 법칙(하위 80% 아이템에 주목)을 따름
⚠ 참고사이트
- 강의 - 머신러닝&AI로 추천시스템 구축하기(udemy)
- 추천시스템의 자동평가
Automatic Evaluation of Recommendation Systems: Coverage, Novelty and Diversity
In a previous article, I wrote about the tree types of recommender systems:
medium.com
728x90'데이터과학 > 추천시스템' 카테고리의 다른 글