4월, 2024의 게시물 표시

KT 에이블스쿨 : 5차 미니프로젝트 (4일차) - 얼굴인식 딥러닝 모델링

이미지
    5차 (2) 미니프로젝트 4일차 : 24.04.29 (월)   오늘부터는 딥러닝 객체인식으로 모델링하는 프로젝트 !. 딥러닝 심화과정에서 배웠던 이미지 수집, 데이터라벨링, 전처리, 딥러닝 학습을 프로젝트로 하게된다.  1일차는 수업에서 배운거의 고도화버전이었다. 수업에서는 일일이 수작업으로 건드렸던 부분을 전부 코드화해서 자동화로 바꿨고, 모델링 학습을 했다.    유명인 얼굴인식 데이터 전처리 0. 압축된 이미지 데이터셋을 구글 드라이브에 올리면 1. 구글 코랩에서 파이썬 코드로 압축 파일을 해제하고  2. 데이터셋 구조가 어떻게 되어있는지 파악함 3. 파악 후, yolo 모델을 위한 데이터 폴더 구조로 폴더 생성 4. images 폴더에는 jpg, png 파일을 이동시키고, labels 폴더에는 txt 파일을 이동시킴 5. yaml 파일 만들기  수업때는 위 과정을 수작업으로 직접 처리했는데, 이번 미프에서는 전부 코드화 시키는 작업을 배웠다  모델 추가학습 모델링 학습을 위해서 GPU를 계속 쓰다보니까 리소스에 한계가 다달았다.  팀원들 돌아가면서 하나의 모델을 돌아가면서 추가학습 시키기로 했다.  그런데 문제는 다른 조원이 epochs =100 돌린거를 내가 추가학습 시키면 mAP가 0 근처에서 다시 상승하는 문제가 있었다.  data.yaml 파일의 가중치 부분을 아래와 같이 수정했는데도, 여전히 문제가 있었다.. . 'weights_dir': '/content/last.pt', 이해가 안가서 문의를 남겼는데도 여전히 어렵다.. 흙  

KT 에이블스쿨 : 5차 미니프로젝트 (3일차) - 시계열 데이터 전처리 - 비즈니스 평가

이미지
    5차 미니프로젝트 3일차 : 24.04.26 (금)   파이프라인을 만드는 함수랑 비즈니스 평가하는 부분이 주된 부분이었다. 내가 파이프라인을 만들고, 비즈니스 평가를 위한 이미지 출력을 하는 코딩 파트를 맡았는데 파이프라인의 의도를 정확하게 인지하지 못해서 잘못된걸로 만드느라 시간을 허비했고,,, 전날 돌린 상품별 data.pkl이랑 오늘 돌리는 새로운 데이터셋의 컬럼이 달라서 성능 예측을 못했다. 오류를 해결하느라 많은 시간을 보냈는데 3시 제출마감하기 3분전에 코드를 다 돌려서 급하게 냈다. ..  휴 =3  성능은 개선하지 못했고, 그냥 코드를 다 돌려서 다행이었다.  하나 더 아쉬운거는 전날 팀원한테 보낸 코드의 data.pkl 이랑 내가 금일 돌린 data.pkl이 달라서 팀원들이 찾아준 하이퍼파라미터 값이 나의 data.pkl이랑 맞지 않아 성능이 마이너스로 나온게 아쉽다. .  애를 먹은 문제들 파이프라인의 의도 파이프라인은 test용인 새로운 데이터셋의 전처리 과정만 하면 되는데 파이프라인 안에 train_test_split부터 스케일링, 모델링 과정까지 넣은게 문제였다.  학습용 데이터로 학습한 모델이 새로운 데이터에서도 예측이 잘되는지 확인하는 용이기에  학습용 데이터랑 전처리만 똑같이 하면 되는거였는데, 이론적인 딥러닝 과정에 대한 이해가 미흡했다.  학습용 데이터의 전처리 과정(merge, 가변수화, 컬럼 추가 등)을 하고 def pipeline(sales_data, orders_data, oil_price_data, Product_ID): ... ... x = df.drop(columns = ['Date', 'Target']) y = df.loc[:, 'Target'] return x, y x랑 target(y)으로만 나눠서, xy를 return하면 되는거였다. .  혹은 x, y로 나누지 않은...

KT 에이블스쿨 : 5차 미니프로젝트 (2일차) - 시계열 데이터 전처리 - 모델링

이미지
   5차 미니프로젝트 2일차 : 24.04.25 (목)   어제 데이터 탐색을 하면서 실패한 merge 부분을 생각하면서  데이터 전처리 및 모델링을 했다.  처음부터 끝까지 함수화해서 파이프라인을 만들때 써먹을 수 있도록 노력했다. 함수화를 하니까 merge한 데이터프레임, 전처리, 모델링을 통일성 있게 할 수 있어서 오늘 실습을 하면서도 효율성이 높아진게 느껴졌다.  시계열 데이터 전처리 merge 0. 날짜를 담고있는 date 컬럼 - datetime 형으로 변환 1. sales 데이터프레임 - 44번 매장 데이터 추출 - product_ID별 데이터 추출 : product_ID = 'Total' 이면, 44매장의 전체 상품을 필터 - 상품별 Qty를 합쳐서 하루에 1개의 행을 가지도록 groupby * 상품별 동일 카테고리의 판매량 합계를 나타내는 새로운 열을 추가  * 1일전 판매량( shift(1) ) ~ 3일전 판매량( shift(3) ) 을 나타내는 열 추가 * 최근 7일간 판매량 평균  df[f'Qty_Lag_{7}_mean'] = df['Qty'].rolling(7, min_periods = 1).mean() 2. orders 데이터프레임 - 44번 매장 데이터 필터 - 불필요한 컬럼(매장ID) 삭제 - Date로 월 / 요일 컬럼 새롭게 만듦 * 매장 44번과 동일한 지역의 매장 방문객 수를 나타내는 새로운 열 추가  3. oil_price  데이터프레임 - 이 데이터프레임에는 결측치가 간혹 있어서, 14일간의 유가 평균으로 함  df['WTI_Price'] = df['WTI_Price'].rolling(14, min_periods=1).mean() 4. customer 데이터프레임 - 1일별 고객 방문수 5. target  df['Target'] = df['Qty'].shift(-2) ** 중요 ** 시계열 데이터다 보니,...

KT 에이블스쿨 : 5차 미니프로젝트 (1일차) - 시계열 데이터 탐색

이미지
  5차 미니프로젝트 1일차 : 24.04.24 (수)   수업때 간략하게 배우고 넘어갔던 시계열 데이터를 처음 접하게됐다 . 생각대로 어려웠다.  미프 실습시간 마치고 복습하는데도 한참을 걸렸다..  3차때 미니프로젝트부터 느낀게, 코드를 함수화해서 효율성을 높이는게 중요하다고 생각들어 오늘 실습한 1일차 데이터탐색도 전부 함수화로 바꿔 복습했다.  K마트 44번 매장의 유통 판매량을 탐색한 결과 를 정리할려한ㄷㅏ.  시계열 데이터 탐색 시계열 데이터 필수사항  1. 날짜를 담고있는 date 컬럼 - datetime 형으로 변환 2. 결측치 확인 - 결측치 어떻게 처리할지 ? (이동평균, 보간법 등 ) 범주값 확인  1. 위치별 매장 개수  매장 위치별(State, City) 매장의 개수를 확인했을때,  Minnesota(State) = 19개 / Saint Paul(City) = 18개로 전체에서 앞도적인 비중을 차지했음 44번 매장 또한, Minnesota(State), Saint Paul(City)에 속해서 다른 매장과 비교를 해볼 수 있음 2. Store_Type 별 매장 개수 44번 매장은 1번에 속하는데, 매장 타입별 좋고 나쁜 정도는 데이터상 만으로는 확인 불가 상품별 월별 판매 수량 기간 : 2014년 ~ 2016년 (3년간) /  2016 (1년간) Total(전체 상품 판매량)과 비례해 영향을 받는건  Product_ID = 12 인 우유 (그래프 3번째)  Product_ID = 3인 음료 (그래프 2번째) Product_ID = 42인 곡물 (그래프 4번째)  판매량과 관련없이 연말연초에 판매량이 적고, 중순(7월 전후)로 가장 판매량이 많음 연초연말에는 재고를 적게, 7월에는 재고를 많이 준비하는게 좋을 듯  곡물 판매량은 시간(Date)와 가장 연관이 높아보임  ...

KT 에이블스쿨 : 4차 미니프로젝트 - Associate 시험 대비

이미지
  4차 미니프로젝트 24.04.22 (월) ~ 23 (화)  Associate 시험은 6월 예정인데, 그전에 에이블스쿨에서 실습 문제로 시험 대비를 할 수 있게 해줬다.  첫날 첫 실습을 풀때는 어렵고, 양이 많기도해서 1시간 반동안 전체를 다 풀지 못했다. 데이터 전처리 - 탐색 - 머신러닝까지만하고, 딥러닝 부분은 어려워서 못했지만, 실습2파일, 실습3파일은 비교적 양이 적기도 하고, 한번 해보니까 쉬워져서 시간내 빨리 끝냈다.  Associate 시험 대비  시험시간 : 1시간 30분 (90분)  실습내용 : 그동안 수업, 프로젝트에서 하던 데이터 전처리, 탐색, 머신러닝, 딥러닝의 전체 흐름을 실제로 작성할 수 있는지를 보는 듯하다.  오픈북 : 인터넷 검색이 가능하기는 하지만, 생성형 AI나 개인 블로그와 같이 스스로 정리한 코드 메모는 이용이 불가능 그래서, 실습을 하면서 첫 실습파일을 제외하고는 최대한 인터넷을 사용해서 검색을 할려고 노력했다.  실습을 해보면서 느낀건 그동안 프로젝트, 수업때 복습, 실습했던 부분만 잘 이해하고 있으면 문제 없을 것 같은 느낌이 들었다.  매니저님께서 실습파일은 실제 시험보다 난이도가 낮은 편이라고 하니까 어려운 부분도 연습을 많이 해봐야할 듯  부족한 부분 데이터 탐색 :  json / csv 구분 주의, 그래프(히트맵, bar차트)  데이터 전처리 : 값 변경, 삭제, 정규화, 인코딩(정수인코딩 - labelencoder, 원핫인코딩 - onehot, to_categorical)  딥러닝 : 컴파일(loss, metrics 주의), EarlyStopping, ModelCheckpoint, 학습곡선 그래프  추가사항 : 한글폰트, 경고 메세지 무시 

[KT 에이블스쿨 - IT 트랜드] 6주차 | 데이터 플랫폼, 6G, 뷰티테크, (토론) 의료데이터 개방문제

이미지
            에이블스쿨 스터디로 조원들과 IT 트랜드 발표 및 토론한 내용을 정리하고 있습니다  6주차 (4월 22일 ~ 26일) 데이터 플랫폼과 융합형 DB (링크) 데이터 플랫폼 트렌드 1. 온프레미스 데이터가 적재되고 가공된 후에 사용자가 분석을 할 수 있기 때문에 실시간 데이터 처리에는 어려움이 있음 2. 데이터 레이크 장점 : 비정형 데이터나 대량의 데이터를 실시간으로 분석하는 것이 가능 (기존의 DW는 정형화된 데이터를 처리하는 데 주로 사용되었음) 단점 : 원천 데이터를 그대로 보관함 대용량 데이터 분석이 필요한 경우, 구조화된 데이터로 변환하여 분석하는 과정이 추가로 필요 3. Gen DW 유전체 데이터를 저장, 관리, 분석하기 위한 데이터 웨어하우스 기존의 데이터 웨어하우스에서는 한정된 데이터만을 처리할 수 있었지만, Gen DW는 다양한 형태의 데이터(구조화되지 않은 Raw 데이터)를 다루며, 실시간 처리와 분석을 지원 단점 : 유전체 데이터는 매우 대용량 대규모 데이터를 처리하고 유지하는 데 필요한 하드웨어 및 소프트웨어 비용이 높음 4. 모던 데이터 스택 데이터 웨어하우스 및 데이터 처리 방식에서 벗어나, 클라우드 네이티브, 오픈 소스, 자동화, 실시간 처리 등의 기술을 통합하여 데이터 파이프라인을 구축하고 데이터를 효율적으로 관리하는 환경을 제공 생성형 AI와 융합형 DB AI 벡터 검색 LLM을 활용해 시멘틱(Semantic) 검색 기능                                         6G 기술 (링크) 1) 주파수 현재 5G용 주파수 대역은 3.5GHz 6G는 100GHz ~ 1THz 사용 목표 2) 위성통신 300~1500㎞에 부유하는 저궤도 인공위성 ...

[KT 에이블스쿨 - IT 트랜드] 5주차 | 딥페이크, ETA, 공간컴퓨팅, 빅테크의 수난시대, 가상 피팅

이미지
  에이블스쿨 스터디로 조원들과 IT 트랜드 발표 및 토론한 내용을 정리하고 있습니다  5주차 (4월 15일 ~ 19일) 딥페이크 사례와 피해방지 방안 내가 발표했답  (링크) 드라마와 영화, 디지털 범죄(음란물, 보이스피싱), 정치에 사용되는 딥페이크 사례를 설명하고 AI가 만든 딥페이크 이미지에 역으로 AI 알고리즘을 적용해 이를 차단하는 방안이 필요하다고 발표했다.  추가적으로 선거법, 성폭력 관련 법률에도 딥페이크에 대한 명확한 규정이 있다. 국내외의 피해방지에 대한 현황을 소개하면서, 딥페이크를 인지하고 개인정보를 쉽게 여기는 인식을 바꿔야한다고 발표했다. < 피드백받은 개선 필요사항 > - 발표 후반부에 말이 늘어지는 경우가 있어서 신경 써주시면 더 좋게 들릴 것 같아요! - 생각을 해야할 때나 이전 말의 흐름을 돌아봐야할 때 말이 늘어지는 경우가 많으니, 같이 해결방안을 고민해봅시다!                                                                     AI 활용 ETA 예측 기술 자동차 내비게이션은 도착 예상시간을 알려주는 ETA 예측 기술이 포함됨  주행환경 변수가 많아서, 정확히 예측하는건 어려움  (기존) 교통상황 정보 요소를 고려 : 링크 정보, 유고 정보, 속도 정보, 회전 cost  출처 다양한 교통환경이 있기에 단편적인 위의 요소를 쓰기에는 문제가 있음 => 딥러닝을 적용해 복잡한 패턴을 일반화하고, 빠른 추론 속도 또한 목표를 삼음  출처 (현대오토에버) 예측 모델을 설계했는데, 기존의 ETA 정...

이 블로그의 인기 게시물

[KT 에이블스쿨 - IT 트랜드] 국내외 AI 관련 규제

KT 에이블스쿨 : IT 인프라 (1일차~5일차) 공부 정리

KT 에이블스쿨 : 핀테크 아이디어 공모전