Likelion AI SCHOOL7 국비 교육에서의 프로젝트 (본인 코드)
BeautifulSoup과 Requests를 이용한 웹툰의 순위를 가져오기
지역별 연도별 이혼 사유에 대해 분석하기
이혼 사유에는 성격 차이가 가장 큰 원인이 된다고 볼 수 있다.
또한, 지역으로는 경기도, 서울특별시가 가장 많으나 이는 인구밀도지역으로 인한 차이라고 볼 수 있다.
📌 github : meji9086/5nly-code-repository 참고
제주도 도로 교통량 예측하기
- base_date : 2022년 7월 기준으로 교통량 증가하였다. 이는 코로나 접종 이후 처음 거리두기가 풀린 여름 휴가로 인한 급증이라고 볼 수 있다.
- base_hour : 00시-05시,18시-24시에 교통량 감소하였고, 05시-18시 교통량 증가하였다(차이가 큼).
- day_of_week : 금요일에 교통량 증가하였고, 주말에 교통량 감소하였다(큰차이 없음).
- road_name : '-'으로 기록된 null값이 존재한다.
- year : 뚜렷한 차이 없다.
- month : 7월 교통량 급증가하였다. 이는 여름 휴가를 원인으로 볼 수 있다.
- day : 뚜렷한 차이 없다.
- 월별 차이가 제일 뚜렷한 것을 볼 수 있다.
LightGBM을 이용해 교통량 예측하였다.
GridSearchCV를 이용한 최적의 하이퍼 파라미터 : {'learning_rate': 0.05, 'max_depth': 5, 'min_child_samples': 5, 'num_leaves': 20}
🍀 test data MAE 점수 : 5.77352
📌 github : meji9086/5nly-code-repository 참고
노트북 가격 예측하기
Notebook의 종류가 월등하게 높은 것을 확인할 수 있다. 이는, 들고다닐 수 있는 편의성으로 인해 구매율이 높아 생산률도 높을 것이라고 추측할 수 있다. 제조업은 Dell, Venovom, HP의 제품들이 월등하게 많은 것을 확인할 수 있다.RandomForestRegressor를 이용해 노트북 가격을 예측하였다.
feature 간 중요도는 1위 RAM, 2위 Peso(무게) 순으로 높은 것을 알 수 있다.
🍀 test data RMSE : 402
📌 github : meji9086/5959-deeplearning-project 참고
청경채 성장률 예측하기
내부온도관측치, 내부습도관측치, 총주정광량, 월별 비율을 살펴보았다.
내부온도관측치가 15-35에 몰려있음을 확인할 수 있었고, 내부습도관측치난 25-90에 몰려있음을 확인할 수 있었다.
총추정광량은 고르게 퍼져있었으며, 11월과 12월에는 자료가 없음을 알 수 있었다.
적색, 청색, 백색, 총추의 총추정광량의 비율을 살펴보았다.
백색과 총추는 100에서, 적색가 청색은 0에서 성장률이 높음을 알 수 있었다.
EC와 CO2의 냉방상태를 확인해보았을 때, EC 관측치가 클수록 냉방상태는 적었으며 반대로 작을수록 냉방상태는 높은 것을 확인할 수 있었다.
분포를 일정하게 만들기 위해 RobustScaler을 이용한 Scaling을 해주었다.
Tensorflow, Pytorch 그리고 LSTM을 이용해 모델의 성능을 비교하였으며, Tensorflow가 가장 높은 성능을 띄었다.
🍀 Tensorflow
public score : 17.91
private score : 17.53
📌 github : meji9086/5959-deeplearning-project 참고
마스크 착용/미착용 분류하기
Tensorflow를 이용해 마스크 착용 여부를 분류하였다.
Resnet152V, VGG19 그리고 DenseNet121를 이용하여 성능을 비교하였으며, Resnet152V이 가장 높은 성능을 띄었다.
📌 github : meji9086/5959-deeplearning-project 참고
문장 유형 분류하기
각 label의 빈도수를 시각화하여 확인해본 결과 시제를 제외한 모든 label은 치우쳐진 데이터임을 확인하였다. 이에 따른 해결책을 생각해야할 것이다. label을 하나로 통합하여 빈도수를 확인해본 결과, 각 클래스 사이에서 불균형이 일어날 수 있음을 알 수 있었다.Resampling을 통한 label 비율 맞추어 주었다.
torch를 이용하여 문장 유형을 예측하였으며, BERT Model이 가장 성능이 좋았음을 확인하였다.
🍀 BERT Model Score : 0.72838
📌 github : meji9086/olist-corporate-analysis 참고
📌 github : meji9086/Traffic-Accident-Data-Analysis 참고
법규위반별 교통사고 원인 분석
교통사고의 원인으로는 신호위반, 안전거리미확보 그리고 교차로운행방법위반으로 볼 수 있다.
하지만, 사망자는 과속으로 많이 발생한다는 것을 알 수 있다.
☘ 해결방안 제시
- 신호위반에 대한 법의 강화 또는 벌칙금을 증가시킨다.
- 과속 할 수 있는 구간에 CCTV 추가설치 및 과속 벌칙금 증가시킨다.