본문 바로가기

AI / DL/엘리스 AI 데이터 분석 트랙13

[AI 데이터 분석] 머신러닝 시작하기 04. 지도학습 - 분류 분류 주어진 입력 값이 어떤 클래스(범주, label)에 속할지에 대한 결과 값을 도출하는 알고리즘이다. 다양한 분류 알고리즘이 존재하며, 예측 목표와 데이터 유형에 따라 적용한다. 분류 문제에 다양한 머신러닝 모델을 사용하여 해결한다. 가장 간단한 모델인 의사결정나무가 있다. 간단함에도 성능도 좋고, 이후에 확장할 수 있는 모델도 많다. 앙상블 기법과 함께 고급 기법까지 나무를 통해 만들 수 있다. 트리 구조 기반 의사결정나무, 랜덤포레스트, … 확률 모델 기반 나이브 베이즈 분류기, … 결정 경계 기반 선형 분류기, 로지스틱 회귀 분류기, SVM, … 신경망 퍼셉트론, 딥러닝 모델, … … … 선형 회귀 식은 -∞ ~ +∞의 결괏값을 가질 수 있다. 따라서 일반적인 회귀 알고리즘은 분류 문제에 그대로.. 2022. 10. 7.
[AI 데이터 분석] 머신러닝 시작하기 03. 지도학습 - 회귀 회귀 분석 회귀 분석이란 데이터를 가장 잘 설명하는 모델을 찾아 입력값에 따른 미래 결과값을 예측하는 알고리즘이다. 완벽한 예측을 불가능하기에 최대한 잘 근사해야 한다. 각 데이터의 실제 값과 모델이 예측하는 값의 차이를 최소한으로 하는 선을 찾아야 한다. 단순 선형 회귀 데이터를 설명하는 모델을 직선 형태로 가정한다. 데이터를 가장 잘 설명하는 β를 찾는 것. 데이터를 잘 설명한다는 것은, 실제 정답과 내가 예측한 값과의 차이가 작을 때이다. 단순 (실체값 - 예측값)은 부호 때문에 합계를 내면 이 차이를 정확히 나타내지 못한다. 부호가 상쇄하는 것을 막기 위해 (실제값 - 예측값)의 제곱을 통해 판단한다. Loss 함수 실제 값과 예측 값 차이의 제곱의 합을 Loss 함수로 정의한다. 따라서 Loss.. 2022. 10. 7.
[AI 데이터 분석] 머신러닝 시작하기 02. 데이터 전 처리하기 머신러닝 과정 데이터 수집 데이터 분석 및 전 처리 머신러닝 학습 머신러닝 평가 크롤링 또는 DB 데이터를 통하여 데이터 수집 수집한 데이터를 분석하고 머신러닝에 사용할 형태로 전 처리 머신러닝 모델을 사용하여 데이터를 학습 학습된 머신러닝 모델을 평가용 데이터를 사용하여 평가 평가에서 잘 안 되거나 전 처리가 잘 안 되면 다시 학습하거나, 분석하거나, 또 다른 데이터를 수집하는 단계로 되돌아간다. 데이터 전 처리의 역할 머신러닝의 입력 형태로 데이터 변환 (특성 엔지니어링) 결측값 및 이상치를 처리하여 데이터 정제 학습용 및 평가용 데이터 분리 대부분의 머신러닝 모델은 숫자 데이터를 입력 받는다. 일반적으로 행렬 형태로 입력 받는데, 여러 형태로 존재하는 다양한 데이터를 수치형 자료로 변환해주는 과정이.. 2022. 10. 7.
[AI 데이터 분석] 머신러닝 시작하기 01. 자료 형태의 이해 자료의 형태 머신러닝은 데이터라는 디지털 자료를 바탕으로 수행하는 분석 방식이다. 자료의 형태를 파악함은 머신러닝을 사용하기 위한 필수 과정으로 아래 물음의 답을 얻을 수 있다. 데이터가 어떻게 구성되어 있을까? 어떤 머신러닝 모델을 사용해야 할까? 데이터 전 처리를 어떻게 해야 할까? 수치형 자료는 양적 자료(Numerical Data)라고도 불린다. 수치로 측정한 가능한 자료다. (키, 몸무게, 시험 점수 등) 범주형 자료는 질적 자료(Qualitative Data)라고도 불린다. 수치로 측정이 불가능한 자료다. (성별, 지역, 혈액형 등) 둘을 구분할 때 자료의 숫자 표현 가능 여부로 구분하면 안 된다. 범주형 자료가 숫자로 표현되는 경우도 있기 때문이다. 남녀 성별 구분 시 남자를 1, 여자를 0.. 2022. 10. 6.
[AI 데이터 분석] 머신러닝 시작하기 00. 인공지능/머신러닝 개론 빅 데이터의 등장 4차 산업 흐름에 따라 수 많은 정보가 디지털 데이터로 저장되고 있다. 빅 데이터란 기존의 데이터 베이스 관리 도구의 능력을 넘어서는 방대한 양의 데이터로부터 가치를 추출하고, 결과를 분석하는 기술을 의미한다. 현 시점으론 Sensor Network, Digital transformation, Hardware Evoution와 같은 요소로 인해 더 성장하고 있다. 빅 데이터를 통하여 IoT, 클라우드, 머신러닝 기술이 상호 협력하고 있다. 머신러닝은 빅 데이터를 분석할 수 있는 강력한 툴이다. 기존 통계학 및 시각화 방법의 한계를 해결하고 있다. 기존의 데이터를 바탕으로 미래의 데이터를 예측할 수 있고, 사람이 파악하지 못하는 패턴을 파악해주기도 하고, 개개인의 정보를 활용해 추천 시스.. 2022. 10. 6.