온라인 리뷰는 소비자의 의견을 제공하는 중요한 지표이다. 리뷰 데이터의 감성 분석과 키워드 추출을 진행하고, 그 두 가지를 통합하여 비즈니스 인사이트를 도출한다. 데이터 셋은 대용량 쇼핑몰 리뷰 데이터로, AI Hub, 크롤링(Crawling), GtiHub 등 세 경로를 통해 수집하였다. GRU 모델을 활용한 감성 분석과 BERT 모델을 활용한 키워드 추출을 진행한다. 감성 분석의 경우 약 92%의 성능을 보였으며, 키워드 추출은 코사인 유사도를 통해 5가지 키워드를 선택하였다. 해당 파이프라인은 소비자 리뷰 데이터의 감정을 분류하고, 제품의 강점과 약점을 식별하여, 소비자와 기업 양쪽 모두에게 유용한 정보를 제공한다.
- 주최/주관: 2024년 1학기 국민대학교 소프트웨어학부 “빅데이터 최신기술”(담당교수: 강승식) 수업에서 수행했던 개인 기말과제
- 성과: PAPER LINK (한국정보과학회)
- 2024.03 ~ 2024.04 (2개월)
- 데이터 셋: 속성기반 감정분석 데이터, 감성 분석용 말뭉치, 네이버 쇼핑 리뷰 데이터 크롤링
- 평가지표: F1 Score
대용량 텍스트 데이터를 다루는 과정에서 많은 자원과 효율성 문제에 직면했다. 예를 들어, GPU A5000에서 코드가 자주 멈추는 현상을 겪으면서, 맥북 GPU MPS를 활용하여 문제를 해결할 수 있었다. 이 경험을 통해 데이터 저장과 처리의 중요성을 깨달았고, 서버의 성능이 프로젝트 전반에 미치는 영향이 크다는 것을 실감했다.
키워드 추출 작업에서는 정확한 성능 지표를 제공하기 어려워, 성능 평가가 주로 정성적인 평가에 의존하게 되었다. 이에 따라, 결과를 어떻게 시각화하고 신뢰를 얻을 수 있을지에 대해 많은 고민이 있었다. 이 과정에서 성능을 어떻게 표현할지, 평가 기준을 어떻게 설정할지에 대한 고민이 중요하다는 점을 깨달았다.
모델링 부분에서는 기존 모델을 가져와 전이학습을 효율적으로 진행하는 데에만 집중했다. 그러나 모델 구조에 대해 깊이 들여다보지 않아서, 구조 변경을 통한 성능 향상을 실험하지 못한 점이 아쉬웠다. 향후에는 모델을 설계하는 단계에서 더 많은 실험과 분석을 통해 최적의 모델을 구축하고자 한다.