카테고리 없음

AI 머신러닝(MachineLearning) 딥러닝(DeepLearning) 데이터 전처리에(DataPreprocssing) 대하여

mszn 2022. 10. 28. 13:30





[인공지능]
: AI (Artificial Intelligence)
사람의 지능에 초점을 맞춰서 인공적으로 지능을 구현하기 위한 학문 분야이다. 즉, 인공적으로 사람의 지능을 구현하기 위한 학문 분야를 뜻 한다. 머신러닝과 딥러닝을 포함하는 큰 개념이다.


[머신러닝]
: 머신러닝, Machine Learning
기본적으로 데이터로 부터 학습하는 방식으로 인공적으로 사람의 지능을 구현하기 위한 방법 중 하나이다. 즉, 데이터로 부터 컴퓨터가 학습하고 일정한 패턴을 찾아내 해당 결과를 바탕으로 특정 행위를 하거나 결과를 예측하는 것 이다. 일정한 패턴을 찾아내는 것을 Feature extraction 이라고 한다.

​아래와 같은 순서로 동작 한다.
1) 데이터를 전처리 한다.
2) 데이터를 통해 일정한 패턴과 규칙을 찾아낸다.
3) 찾아낸 규칙 및 패턴을 통해서 결정 혹은 예측한다.


[딥러닝]
: 딥러닝은 머신러닝에 포함된다고 볼 수 있으며,  딥러닝은 머신러닝 방법 중 인공신경망을 사용하는 기술 이다. 딥러닝은 머신 러닝이 진화한 것으로 생각하며 딥러닝의 인공 신경망의 설계는 인간 두뇌의 생물학적 신경망에서 영감을 얻어 만들어졌다. 딥러닝은 머신러닝 보다 뛰어난 학습 및 예측 모델을 제공한다. 차이점을 본다면 머신러닝은 데이터 통한 학습 및 특징 추출 후 해당 정보로 결정 및 예측을 한다. 딥러닝은 인공 신경망 계층을 구성하여 데이터로 부터 자체적으로 배우고 재구성하여 해당 신경망을 통해 지능적인 결정을 할 수 있다.

​그렇다면 AI , 머신러닝(MachineLearning) , 딥러닝 (DeepLearning) 의 관계에 대한 답은 AI  >  MachineLearning  >  DeepLearning , 즉 포함 관계라고 볼 수 있습니다.




데이터 전처리에 대해서 알아보고자 한다.

바로 AI 프로젝트 진행 시 70% ~ 80% 업무 범위를 차지한다고 이야기 하는 유명한 데이터 전처리 이다. 데이터 다루는 업무를 할 때는 데이터 전처리는 반드시 거쳐야 하는 과정 이다. 알고리즘 모델 성능에 큰 영향을 미치기 때문에 결과와 직접적으로 연관이 있으며, 분석과 인사이트를 얻는 것과도 연관되어  중요하게 다뤄진다.


데이터 전처리는 어떤 것을 의미할까?

[데이터 전처리 케이스]
1. 데이터 빠진 부분 처리 = 결측 값 처리
2. 중복으로 들어간 데이터 처리 = 중복 값 처리
3. 특이한, 비정상 데이터가 들어가 있는 경우 처리 = 비정상 데이터 처리
4. 그 외 데이터를 정제해서 모델 학습에 적합한 형태로 바꿔주는 단계 = data cleaning
5. 데이터 스케일 조정 (데이터 범위 및 단위가 다른 경우) = 데이터 스케일링
6. 데이터 차원을 축소하여 모델 성능 향상 및 데이터 가시화 = 차원 축소
7. 데이터의 기존 속성을 조합하여 새로운 유용한 속성(Feature)를 만드는 경우 = 데이터 변환

​데이터 전처리가 학습 결과와 모델 성능에 큰 영향을 주기 때문에 피드백 루프 처럼 학습 결과 확인 후 전처리 코드 수정 과정을 반복한다.
위와 같은 반복적인 수행을 하게 되면서 가장 많은 시간이 소요된다.


대상이 되는 데이터 형태는 보통 결측 값 / 노이즈 값 / 이상치 값 등 이 있으며,  해당 데이터는 삭제 / 대체 / 예측 값 적용 이라는 방법을 통해서 처리 한다.

[주요 데이터 전처리 기법]
1. Data Cleaning
: 결측치, 이상치, 모순 데이터를 제거 혹은 대체 하는 작업
2. Data Integration
: 학습 데이터들을 하나로 합치는 작업
3. Data Balancing
:  데이터가 불 균형을 이룰 경우, 즉 하나의 케이스가 극도로 많거나 적을 때 샘플링 기법을 통해 비율을 맞춰서 정상적인 학습이 될 수 있도록 하는 작업
4. Data Reduction
: 데이터 Feature가 너무 많아서 학습 시 결과에 악 영향을 주고 학습 속도 및 수렴하지 않을 경우 데이터의 차원을 축소하여 이용 가능하며, 차원 축소 시 데이터를 가시화 하여 분석도 가능
5. Data Transformation
: 통계적 기법을 적용하거나 로그를 적용하여 데이터를 변환하여 데이터 특징을 더욱 부각 시키는 방법


부족한 글 읽어주셔서 감사합니다.
매일 조금 씩 내용 공유드리겠습니다.
감사합니다. ^^


#머신러닝 #딥러닝 #AI #MachineLearning #DeepLearning #프로젝트 #데이터전처리 #AI기초 #데이터전처리케이스 #데이터전처리방법 #datapreprocessing #datacleaning #dataintegration #datatransformation #datareduction #databalancing