1.-AI 란~
인공지능이란 학습, 문제 해결, 패턴 인식 등 인지문제를 해결하는 컴퓨터 공학 분야. 1943년 처음으로 개념이 태동.
-최근 빅데이터와 컴퓨팅 성능 향상으로 인해 폭발적 성장중.
-인공지능의 기술 수준
1.Artificial Narrow Intelligence
-좁은 영역에서 특정한 task만 가능하지만 정확도나 속도는 인간을 넘어섬
-AGI로 넘어가기 위해 강화학습, 전이학습을 시도중. 하지만 현재는 ANI수준.
2.Artificial General I
-하나의 task에 습득한 지식을 여러 task에 적용 가능
3.A Super I
-인간을 뛰어넘는 성능을 보여주는 인공지능
2. 머신러닝의 유형에는 비지도학습, 지도학습, 반지도학습, 강화학습이 있다. ->데이터관점으로 나눈거임
머신러닝 알고리즘은 input data와 output data가 있음
~지도학습: feature data와 label data 둘 다 있을 때 사용 가능
-분류분석(classificaton)
-회귀분석(regression): 예측하고자 하는 값이 연속형 데이터인 경우
예) 주식 가격 예측, 부동산 가격 예측
~비지도 학습 : label data는 존재하지 않음.
알고리즘이 입력된 데이터의 유사성을 분석해 분류
-군집분석(Clustering)
~강화학습: feature, label 둘 다 없을 때
:사람이 직접 데이터를 제공할 필요가 없다는 뜻. 피드백 또는 보상을 통해 학습 진행. Agent, Environment 2 개의 프로그램의 상호작용을 통해 생성되는 데티어를 기반으로 학습 ex)체스게임, 알파고
3. 머신러닝의 주요 프로세스
문제 정의-데이터 수집-데이터 전처리-특징 추출-학습-검증
문제 정의= 해결하려는 문제를 명확히 정의, 문제 해결을 위한 알고리즘을 선정
데이터 수집= 학습/검증에 사용할 데이터를 수집하는 단계
데이터는 학습된 모델의 품질을 결정하는 가장 중요한 요소. 충분히 큰 데이터, 대표성을 가지는 데이터, 고품질의 데이터를 수집해야 함.
-데이터 전처리= 데이터의 품질을 결정하는 중요한 단계.
누락된 데이터를 찾아 처리, 이상치 찾아 처리, 데이터 스케일 일치시키기, 데이터 인코딩 등의 방법을 사용.
-이미지, 음성 등과 같은 비정형 데이터의 경우 다양한 전처리 작업이 선행됨.
-도메인에 대한 전문지식, 데이터에 대한 이해가 매우 중요함.
특징 추출= Feature Engineering. 데이터에 대한 도메인 지식을 활용해 특성을 만들어내는 과정.
학습과 검증= 데이터를 학습과 검증용으로 나눔.
-전처리 된 train 데이터 셋을 이용해 학습
-전처리 된 validation 데이터 셋을 이용해 검증
-검증 결과를 이용해 모델의 구조, 전처리 방법 개선
->만족할 검증 결과가 나올 때까지 반복
데이터 셋 분할
-학습에 노출된 적이 없는 test데이터셋을 사용해 모델 최종 검증
머신 러닝이란 데이터로부터 기계가 학습을 하는 알고리즘.
딥러닝 개념