KT 에이블스쿨 : 3-2차 미니프로젝트 - 아파트 주차 수요 예측
3차 (2) 미니프로젝트 : 신규아파트 주차 수요 예측
프로젝트 목적
00토지주택공사에서 새로 만드는 임대아파트 단지의 등록 차량수를 예측해서,
건설할때 도움이 되는 데이터분석가의 역할을 하는것이다.
이번 데이터분석에서 가장 중요했던 것은 데이터 전처리 과정!
단지별 데이터와 단지 상세 데이터가 복잡해서 전처리를 어떻게 수행할 것인지가 포인트였다.
24.04.08(월) ~ 09(화)
단지데이터와 상세 데이터는 특성이 너무 다르기 때문에 이를 분리해서 df을 두개로 나눴다.
상세 데이터는 변수의 특성에 맞게 아래와 같이 집계를 했다.
- 구간화 방법 - 비율, 개수로 나눔
- 총면적 구하기
- 임대료, 임대보증금 집계 = 가중평균
- 면적별 세대비율 : 파생변수 추가해 예측이 더 잘 되도록함
가변화, 이상치, 결측치 문제가 있었는데, 각각의 문제를 이렇게 해결했다.
- 가변화 문제 : test_data 승강기설치여부 컬럼의 값이 1개여서 가변수화 결과가 열에 반영되지 않는 문제가 있었다.
이 부분은 승강기설치여부 값을 0, 1, 2로 변경해서 가변수화가 필요없게 만들어 해결
- 이상치 문제 : 임대보증금, 임대료의 0 값을 평균값으로 변환
(추가로 단변량 분석도 활용해서 해결할려고 노력해봤다.)
- 결측치 문제 : 난방방식, 승강기설치여부, 건물형태 nan 값을 최빈값으로 처리
나는 위 방법대로 문제들을 해결했는데,
다른 조의 발표를 들으면서 다양한 방법이 있다는걸 알게됐다.
다른 팀의 발표
- 세대수 / 실차량수 했을때 과도하게 큰 경우 대체
- 임대료, 임대보증금 0원인 경우 = 무상임대 , 컬럼 추가
- iqr 범외는 이상치로 처리함
- 산점도(reg) 했을때, 이상치 확인하고
-> 세대수는 1인데 차량수가 커서 데이터 수정이 필요한걸 인지
-> '호갱노노' 사이트에서 실세대수, 지역 등을 확인하고 수정함 (데이터 50개정도 수정)
느낀점
건설을 할때도 이렇게 주차장의 크기를 결정 짓는데 데이터분석가의 역할이 중요한 것처럼
여러 혼합된 데이터 속에서 유의미한 데이터를 고르고 예측하는게 중요한걸 알게됐다.
3차의 두번째 미니프로젝트에서는 주차 수요를 예측했지만, 이걸 확장하면 승강기 설치, 지역의 주차장 위치 등 다양한 곳에 활용이 가능할 것 같다.
댓글
댓글 쓰기