Search
📊

상세 분석과정

특성 별 분석 절차

빵 특성 데이터 분석 절차

형태소 분석 > 빈도 분석 > 토큰화 및 분류작업 > 키워드 수치화 작업 > 군집 분석
형태소 분석 > 빈도 분석 > 토큰화 및 분류작업 > 키워드 수치화 작업
마켓컬리 웹페이지에서 스크래핑한 빵 설명 데이터를 Python kiwi 형태소 분석기를 활용하여 진행 빈도 분석 및 어미어간 제거를 통해 각 종류 별로 빵의 특성을 나타내는 키워드만을 뽑아 분석 18개의 빵 데이터에서 빵의 특성을 나타내는 키워드 선별 후 출현 여부에 따라 0과 1로 코드화
군집 분석
계층군집화 및 k-means 분석
다른 군집과의 확연한 차이를 보였던 계층군집화 완전연결방법 채택
18개의 빵 종류는 총 8개의 조로 군집이 형성

빵 맛집 특성 데이터 분석 절차

토크나이저 선정 > 형태소 빈도 분석 > 키워드 딕셔너리 제작 > 키워드 수치화 작업 > 군집 분석 > 그룹핑 및 특성도출
형태소 빈도 분석
인터넷 리뷰 분석에 좀 더 적합한 토그나이저인 Python konlpy를 활용하여 분석을 진행
키워드 딕셔너리 제작
직접 리뷰 데이터를 살펴보며 빵집 이용의 맥락과 빵집 별 특성을 나타낼 수 있는 중요 단어들을 선별
선별한 단어들을 같은 주제를 나타내는 단어들끼리 묶어 키워드를 그룹핑
그룹핑한 키워드를 바탕으로 빠지면 안되는 단어들을 모아 사용자 사전을 제작
분석에 도움이 되지 않는 단어들을 모아 불용어 리스트를 제작
군집 분석 > 그룹핑 및 특성도출
K-means 분석 결과 기각
키워드 그룹핑으로 뽑힌 빵집의 특성을 기준으로 각 특성에 따라 4점 척도 매김
4점의 높은 점수를 보이는 빵집(베스트셀러 빵집)만을 직접 선별해 서비스에 활용
각 빵 맛집 별로 4점을 받은 특성들이 해당 빵집의 대표 키워드로 선정