본문 바로가기
시간 관리 및 생산성 도구/빅데이터

[이론]8.데이터마이닝의 정의,적용분야,방법론,적용사례

by Coralynn 2022. 8. 26.

오늘은 빅데이터의 처리단계중 '분석' 단계에 해당되는 내용이자 통계분석의 한 방법인 데이터 마이닝에 대해서 알아보도록 하겠습니다. 빅데이터로부터 의미를 찾아내는데 있어 중요도가 크게 급증하고 있는 부분입니다. 데이터 마이닝의 정의와 적용분야, 방법론에 대해 알아보도록 하겠습니다.

 

 

 


|   데이터 마이닝의 이해

1) 데이터 마이닝이란?

대규모로 저장된 데이터 안에서 체계적이고 자동적인 통계적 규칙이나 패턴을 찾아내는 작업으로 KDD(Knowledge-Discovery in Databases 즉, 데이터베이스 속의 지식발견)이라고도 합니다.

 

2) 적용분야

1. 분류 Classification

일정한 집단에 대한 특정 정의를 통하여 분류 및 구분의 형태를 추론하는 분야로 미리 정의된 특성 정보 있다는 점이 군집화와 다른 점 중 하나입니다.

2, 군집화 Clustering

구체적인 특성을 공유하는 군집(Cluster)을 찾는 것으로 미리 정의된 특성 정보가 없이 군집을 탐색합니다.

3. 연관성 Association

동시에 발생한 사건 간의 관계를 정의하는 분야입니다.

4. 연속성 Sequecing

특정 기간에 걸쳐 발생하는 관계를 규명하며 연관성분석과 달리 기간 특성을 고려합니다.

5. 예측 Forecasting

빅데이터 집합 내의 패턴을 기반으로 미래에 발생하는 데이터의 형태를 예측하는 분야압니다.

 


|    데이터 마이닝의 방법론

 

1) 데이터마이닝 방법론 - 과정

 

① 프로젝트의 목적과 적용 가능성 확인

일회성 프로젝트인 경우 프로젝트의 목적을 수립하고 연속성 프로젝트인 경우 프로젝트의 적용 가능성을 확인합니다.

 

② 분석에서 사용할 데이터 수집

데이터 베이스에서 무작위 표본을 추출하고 내부 데이터와 외부 데이터를 수집합니다.

수집하는 과정은 '수집 데이터 선정-세부계획 수립-테스트 수집 진행 - 수집'순으로 진행합니다.

 

수집 방법론에 대한 부분의 자세한 설명은

이전 글 '[이론]4. 데이터의 분류와 수집: 방법론, 도구'를 참고하세요.

 

③ 데이터 전처리

데이터의 조건을 검증하고 정제하는 과정입니다. 산점도, 행렬표 등 그래프를 사용하여 분석합니다.

이 과정에서는 변수에 대한 정의, 측정 단위, 측정 기간 등에 대한 일관성을 확인해야 합니다.

 

전처리 과정 중 고려해야할 것들로는

결측치의 처리방법,

각 변수의 값이 합리적인 범위 내에 있는지,

극단치(최대/최소)가 존재 하는 지 등이 있습니다.

 

④ 데이터 축소,분할

불필요한 변수를 제거하고 변수를 분석가능한 형태로 변환하는 과정입니다. 새로운 변수가 필요한 경우 추가로 생성하고 데이터를 다양한 데이터 집합으로 분할합니다.

 

데이터 집합의 종류로는 학습용 데이터, 평가용 데이터, 검증용 데이터가 있습니다.

 

⑤ 데이터 마이닝 기법 선택

프로젝트에 적절한 분석 유형을 결정하는 과정입니다.

 

데이터 마이닝 기법으로는 

분산분석, 상관분석, 회귀분석 등 고전 분석 모델

신경망 모형 등 딥러닝 분석 모델,

계층적 군집 분석 등이 있습니다.

 

⑥ 데이터 마이닝 수행

이전에 결정한 사항들을 토대로 데이터 마이닝을 수행합니다.

다양한 변인을 적용하여 분석을 수행하며, 평가용 데이터를 이용하여 수행 후 개선되는 변인을 토대로 적용됩니다.

수행 결과로 구축된 모델을 바탕으로 시험 적용할 수 있습니다.

 

 

2) 학습방법론

 

1. 지도학습 Supervised Learning

출력 데이터에 맞게 출력한다는 목표가 명확한 경우

학습용 데이터셋을 이용하여 예측변수와 출력변수 간의 관계를 학습합니다.

 

2. 반지도학습 Semi-supervised Learning

지도학습과 자율학습의 방식을 조합하여

예측변수와 출력변수 간의 일부를 자율적으로 모델링하는 한편, 정해진 데이터셋에 대한 학습 또한 수행합니다.

 

3. 자율학습 Unsupervised Learning

출력변수가 명확히 정의되지 않은 경우,

예측변수에 대한 자율학습을 통해 모델을 구축하는 방법입니다.

 


 

 

반응형

댓글