본문 바로가기
개발자 파헤치기/Deep learning

[Deep learning] 데이터 전처리란? - 데이터 전처리의 주요 기술

by ddudidoobab 2023. 4. 9.
728x90

데이터 전처리란 데이터 분석을 위해 데이터를 사전 처리하는 과정입니다. 이는 데이터 분석 결과의 정확도를 높이고, 분석 시간을 단축하는데 중요한 역할을 합니다. 이 글에서는 데이터 전처리의 중요성과 주요 기술에 대해 자세히 알아보겠습니다.

1.데이터 전처리의 중요성

데이터 전처리는 데이터 분석의 첫 단계로, 데이터의 질을 향상하는 작업입니다. 데이터 분석 결과의 정확도는 데이터의 질에 크게 영향을 받기 때문에, 데이터 전처리는 매우 중요합니다. 데이터 전처리를 통해 불필요한 데이터를 제거하고, 결측치를 채우며, 이상치를 처리함으로써 데이터의 질을 향상하고, 분석 결과의 신뢰도를 높일 수 있습니다. 또한, 데이터 전처리를 통해 분석 시간을 단축할 수 있습니다.

2.데이터 전처리의 주요 기술

2-1. 결측치 처리

결측치란 데이터에서 값이 빠져있는 부분을 의미합니다. 결측치를 처리하지 않으면 데이터 분석 결과에 오류가 발생할 수 있습니다. 결측치 처리 방법으로는 삭제, 보간, 대체 등이 있습니다. 삭제는 결측치가 있는 행이나 열을 삭제하는 것입니다. 보간은 결측치의 앞뒤 값들을 이용하여 결측치를 대체하는 방법입니다. 대체는 결측치를 다른 값으로 대체하는 방법으로, 평균, 중앙값, 최빈값 등을 이용할 수 있습니다.

2-2. 이상치 처리

이상치란 다른 값들과 크게 벗어난값으로, 데이터 분석 결과에 영향을 주는 경우가 있습니다. 이상치를 처리하는 방법으로는 삭제, 대체, 변환 등이 있습니다. 삭제는 이상치가 있는 행이나 열을 삭제하는 것입니다. 대체는 이상치를 다른 값으로 대체하는 방법으로, 평균, 중앙값, 최빈값 등을 이용할 수 있습니다. 변환은 이상치를 다른 값으로 변환하는 것으로, 로그 변환, 제곱근 변환 등이 있습니다.

2-3. 데이터 스케일링

데이터 스케일링은 데이터의 범위를 일정하게 조정하는 작업입니다. 데이터 스케일링을 통해 데이터 분석 결과의 정확도를 높일 수 있습니다. 데이터 스케일링 방법으로는 min-max 스케일링, Z-score 스케일링 등이 있습니다. min-max 스케일링은 데이터의 최솟값과 최댓값을 이용하여 데이터를 0과 1 사이의 값으로 스케일링하는 방법입니다. Z-score 스케일링은 데이터의 평균과 표준편차를 이용하여 데이터를 평균이 0, 표준편차가 1인 값으로 스케일링하는 방법입니다.

2-4. 범주형 데이터 처리

범주형 데이터는 숫자로 표현할 수 없는 데이터로, 예를 들어 성별, 직업, 지역 등이 있습니다. 범주형 데이터를 처리하기 위해서는 더미 변수(dummy variable)를 사용합니다. 더미 변수란 범주형 데이터를 숫자로 변환하는 방법으로, 범주마다 새로운 변수를 만들어 0 또는 1로 표시합니다.

300x250