KT 에이블스쿨 5기 : 첫 글 (1차 미프 끝)










    KT 에이블을 시작한지 어느덧 3주가 지났다...


    에이블교육 시작하기 전에 워밍업하는 사전교육을 들은게 얼마안된것 같은데,, 

    벌써 (1주차) 데이터 다루기, (2주차) 데이터 다듬기 수업을 끝내고 

    1차 미니프로젝트를 오늘 끝마쳤다. 


    시간이 빠르게 쓱쓱지나가는 나의 취준생활을 기록하고자, 에이블러 기자단을 신청했다. 

    이제 에이블러를 하면서, 배우고 느낀걸 틈틈히 자주 기록해보야겠다. 





    24년 3월 6일

    대구경북 DX팀의 반장이 뽑혔따



    박빙의 대결로 반장이 뽑혔다. ! 



    24년 3월 7일 (목요일)

    첫 ! 미니프로젝트날

    첫 조별 프로젝트다 보니 걱정도 되고, 한편으로는 재밌을 것 같아서 설레기도 했다. 


    구매, 고객 데이터를 활용해서 이탈고객을 예측하는게 프로젝트 목적이었다. 

    오전부터 오후 3시까지 개별로 실습을 했는데, 

    수업때 하나씩 차근차근히 배운것들을 한번에 쓰면서 데이터가 다듬어지는 과정을 보니까 보람도 차고 생각보다 별게아니였다. 

    데이터분석, 실습, 프로젝트 이 3단어들이 멀게만 느껴졌는데, 좀 친숙해진 느낌스 


    개별실습할때 중간에 데이터프레임을 merge할때 헷갈리는 부분이 많았다. 

    left랑 outer랑 헷갈리고, inner를 쓰는게 맞을지 outer를 쓰는게 맞을지 자신이 없었는데 팀원들이랑 의견을 나누고 물어보면서 이제 제대로 이해완료 ! 



    배운점 1

    출처: https://programmerpsy.tistory.com/17

    ㄴ 이게 left 조인 



    출처: https://programmerpsy.tistory.com/17

    ㄴ 이게 outer 조인이다. 


    그리고 merge는 단순히 하나의 컬럼을 다른 데이터프레임에 붙일때, 

    left 조인을 해서 쓸 수 있다. 



    배운점 2

    실습파일에서 2개의 데이터프레임(df1, df2)을 merge했을때, 불필요한 값들이 와다다 붙어서 

    합쳐진 데이터프레임의 활용성이 떨어진 상황이 있었다. 

    (ID_x, ID_y, Data_x, Data_y, Data_z 처럼 열이 생김) 


    문제 원인은, df1랑 df2에 중복되는 열이 하나 이상이라서, 똑같은 열들때문에 생기는 현상이었다. 

    해결 방법은, 기준이 아닌 데이터 프레임에서 merge 기준열을 제외한 열이 겹치지 않는 상태에서 merge 하시는것이 필요하다. 


    그래서 df1랑 df2를 합칠때, 기준이 되는 열 하나만 남겨두면된다. ! 

    cust03 = sales.loc[ sales['OrderDate'].between('2017-01-01', '2017-03-31') ]
    cust03 = cust03.drop_duplicates('CustomerID', keep='first')  
    cust03 = cust03[['CustomerID']]
    cust03
    
    
    cust03 = sales.loc[sales['OrderDate'].between('2017-01-01', '2017-03-31'),['CustomerID']].drop_duplicates(keep='first')

    의미는 같은데, 1번째꺼는 풀어서 쓴거고 2번째는 강사님이 쓰신 한줄 코드 




    느낀점 2

    수업때 배우고 복습했던걸 요구사항에 맞춰서 사용하는게 재밌었다. 

    최대한 함수나, 메서드 문법 같은걸 안볼려고 매일매일 틈틈히 복습을 했는데, 그 효과를 체감해서 대 만족 ! 

    앞으로도 매일매일 복습은 디폴트로 해야겠다. 





    24년 3월 8일 (금요일)

    미니프로젝트 1차의 2일차 

    2일차 실습은 오히려 1차때보다 쉽게 느껴졌다. 

    토익점수 예측을 위한 데이터 전처리



    배운점

    실습을 다 하고, 정답 csv 파일과 내가한 csv를 비교해보니, 

    행 갯수가 달랐다. 


    그래서, 정답 csv 파일을 탐색해보니까, 2개의 행에 들어있는 데이터가 이상해서 차이가 났던 것

    df.drop_duplicates(subset= 'id') 아이디를 기준으로 중복 제거를 하면, 500개 행이 나오고, 

    매개변수를 기본값으로 주면, 502개가 나온다. 


    이거 때문에 많은 시간을 썼는데, 크게 중요한 문제는 아니었다. 



    인사이트 공유

    1차 미프를 마치고, 전국에 있는 DX 트랙 에이블러들이 모였다. 

    몇몇 조분들이 발표를 하면서 자기들만의 인사이트를 공유해줬는데, 

    전처리 데이터를 가지고, 깊이있는 인사이트를 고민하는게 대단했다. 



    데이터는 어떤 시각에서 보느냐에 따라서, 프로젝트 결과가 달라짐을 몸소 느꼈다. 

    다양한 인사이트를 보면서 각자 고민을 한 흔적이 느껴져서 배울 점이 많았다. 





    어떤 분은 데이터를 통해서 솔루션까지 도출해낸 팀이 있었다.

    (1일차) 이탈고객 데이터를 만들고, 이탈자를 위한 프로모션을 어떻게 진행할지에 대한 솔루션과 

    (2일차) 토익 csv에서 "토익기출 푼 횟수가 많을 수록 점수가 높다." 라는 결과를 도출하고

    매일매일 토익 문제를 푸는 '일일토익' 솔루션을 제안하셨다. 분석을 넘어서 솔류션까지 하다니 대단하시다. 



    이 모든 과정은 에이블스쿨의 마지막인 빅프로젝트를 위한 과정이라고 한다. 

    현상을 보고, 데이터를 분석하고, AI를 접목해, 결론은 도출하고, 솔루션을 제안하는 것 

    작은 미니프로젝트때부터 이 플로우를 기억하면서, 고민하는 습관을 들여야겠다. 






    미프 강사님의 조언 

    데이터 시각화할때, 데이터의 형식과 의미에 맞춰서 bar 형태로할지, 원으로 할지를 고민하는게 중요

    이후에는, 이 도출된 데이터 시각화를 보면서, 어디에 활용시킬 수 있을지 고민하는 게 좋다고 했다. ~ 






    1차 미프 완료 ! 





    그럼 이만


    댓글

    이 블로그의 인기 게시물

    [KT 에이블스쿨 - IT 트랜드] 국내외 AI 관련 규제

    KT 에이블스쿨 : IT 인프라 (1일차~5일차) 공부 정리

    KT 에이블스쿨 : 핀테크 아이디어 공모전