자연어 처리


정의

  • 문장 데이터를 알아 들을 수 있도록 수식 데이터화 한 것.
  • 컴퓨터, 인공지능, 언어학이 합쳐진 분야

자연어 처리 과정

  • Noise Canceling(스펠링 체크, 띄어쓰기)
  • Tokenizing(문장을 토큰 단위로 나누기)
  • Part of speech tagging(품사 판별)
  • Filtering(불필요 단어 제거 ; ..은, ..으로 등등)
  • Term Vector(각 단어의 중요도 조절)
  • Transformation(term vector 변환)
  • Applying Algorithm

지도학습과 비지도학습


  • 지도학습 : Label이 있는(토끼, 오리 등등의 Label을 알려줌), classification화 할 수 있다.
  • 비지도학습 : Label이 없는, clustering(군집합 ; 비슷한 특성을 갖는 데이터로 묶는 것) 한다.

비지도학습의 예

  • 이상탐지(Anomaly detection) : 데이터의 군집과 동떨어진 부분을 탐지
  • 시각화(visualization) : 데이터의 특성을 시각화 하여 데이터들의 패턴 연구
  • 차원 축소(Dimensionality reduction) : 상관 관계가 있는 여러 특성을 하나로 합쳐, 중요한 특성을 쉽게 볼 수 있다. (차원 축소를 함으로써 쓸모없는 다차원 -> 유의미한 차원으로 남겨놓을 수 있다.)

강화 학습


  • 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하려는 행동 혹은 행동 순서를 선택하는 방법
  • Agent가 Action을 선택 -> 환경의 변화가 있을 것 -> 그 변화가 어떻게 이루어 졌나 -> 그에 맞는 보상을 해준다. 이러한 보상들에 대한 metric을 생성 -> 최적의 보상에 대한 기계 학습.

과적합


  • 학습 데이터에 너무 맞추다 보면, 일반화 성능이 오히려 떨어지는 현상.

과적합을 피하는 방법

  • validation set을 통해 과적합인지 검증, 감시를 하며 적정 구간을 찾는다.
  • 교차 검증 을 이용