AWSKRUG Meetup (4/1/2020)

무엇이 λ°”λ€Œμ—ˆλŠ”κ°€!

  • μΌμ‹œ 및 μž₯μ†Œ

    • 맀월 첫 μ£Ό μˆ˜μš”μΌ 저녁 7μ‹œ

  • 두 μ„Έμ…˜μœΌλ‘œ 진행

    1. μŠ€ν„°λ”” λ°œν‘œ

    2. 자유 λ°œν‘œ

  • ꡐ재

    • Hands-On Machine Learning with Scikit-Learn & TensorFLow

1μž₯ ν•œλˆˆμ— λ³΄λŠ” λ¨Έμ‹ λŸ¬λ‹

Table of Contents

  1. λ¨Έμ‹ λŸ¬λ‹μ΄λž€?

  2. μ™œ λ¨Έμ‹ λŸ¬λ‹μ„ μ‚¬μš©ν•˜λŠ”κ°€?

  3. λ¨Έμ‹ λŸ¬λ‹ μ‹œμŠ€ν…œμ˜ μ’…λ₯˜

  4. λ¨Έμ‹ λŸ¬λ‹μ˜ μ£Όμš” 도전 과제

  5. ν…ŒμŠ€νŠΈμ™€ 검증

  6. μ—°μŠ΅λ¬Έμ œ

λ¨Έμ‹ λŸ¬λ‹μ΄λž€?

: λ¨Έμ‹ λŸ¬λ‹μ€ λͺ…μ‹œμ μΈ ν”„λ‘œκ·Έλž˜λ° 없이 컴퓨터가 ν•™μŠ΅ν•˜λŠ” λŠ₯λ ₯을 κ°–μΆ”κ²Œ ν•˜λŠ” 연ꡬ λΆ„μ•Όλ‹€

μ’€ 더 곡학적인 μ •μ˜

  • μ–΄λ–€ μž‘μ—… T에 λŒ€ν•œ 컴퓨터 ν”„λ‘œκ·Έλž¨μ˜ μ„±λŠ₯을 P둜 μΈ‘μ •ν–ˆμ„ λ•Œ κ²½ν—˜ E둜 인해 μ„±λŠ₯이 ν–₯상됐닀면, 이 컴퓨터 ν”„λ‘œκ·Έλž¨μ€ μž‘μ—… T와 μ„±λŠ₯ μΈ‘μ • P에 λŒ€ν•΄ κ²½ν—˜ E둜 ν•™μŠ΅ν•œ 것이닀.

  • T (μž‘μ—…)

    : μƒˆλ‘œμš΄ 메일이 μŠ€νŒΈμΈμ§€ κ΅¬λΆ„ν•˜λŠ” 것

  • E (κ²½ν—˜)

    : ν›ˆλ ¨ 데이터 (슀팸 메일이 ν¬ν•¨λœ 메일 데이터)

  • P (μ„±λŠ₯ μΈ‘μ •)

    : 정확도 (accuracy)

μ™œ λ¨Έμ‹ λŸ¬λ‹μ„ μ‚¬μš©ν•˜λŠ”κ°€?

μ‚¬λžŒμ΄ (λ‚΄κ°€) 직접 μž‘μ—…μ„ ν•œλ‹€λ©΄?

  1. (μ‚¬λžŒμ΄) λ¨Όμ € μŠ€νŒΈμ— μ–΄λ–€ 단어듀이 주둜 λ‚˜νƒ€λ‚˜λŠ”μ§€ μ‚΄νŽ΄λ³Έλ‹€

  2. (μ‚¬λžŒμ΄) λ°œκ²¬ν•œ 각 νŒ¨ν„΄μ„ κ°μ§€ν•˜κ³  νŒ¨ν„΄μ΄ 발견되면 슀팸으둜 λΆ„λ₯˜ν•˜λŠ” ν”„λ‘œκ·Έλž¨μ„ μž‘μ„±

  3. ν”„λ‘œκ·Έλž¨μ„ ν…ŒμŠ€νŠΈν•˜κ³  μΆ©λΆ„ν•œ μ„±λŠ₯이 λ‚˜μ˜¬ λ•ŒκΉŒμ§€ 1단계와 2단계λ₯Ό 반볡

    -> λ…Έκ°€λ‹€...

기계가 ν•™μŠ΅μ„ ν•œλ‹€λ©΄?

  1. λ¨Έμ‹ λŸ¬λ‹μ€ μŠ€νŒΈμœΌλ‘œλΆ€ν„° 자주 λ‚˜μ˜€λŠ” νŒ¨ν„΄μ„ 슀슀둜 μ°ΎλŠ”λ‹€

  2. 이λ₯Ό μ΄μš©ν•΄μ„œ μŠ€νŒΈμ„ νŒλ‹¨ν•˜λŠ” 데 쒋은 기쀀이 λ˜λŠ” 단어듀을 ν•™μŠ΅

    • ν”„λ‘œκ·Έλž¨μ€ 간결해지고 μœ μ§€ λ³΄μˆ˜ν•˜κΈ° μ‰¬μš°λ©° λŒ€λΆ€λΆ„ 정확도가 더 λ†’μŒ!

Abuser와 λ³€ν•˜λŠ” ν™˜κ²½

  • 슀팸 메일을 μž‘μ„±ν•˜λŠ” μ‚¬λžŒμ΄ 무료, 곡짜, 100% 와 같은 단어가 슀팸으둜 κ±Έλ¦°λ‹€κ³  νŒλ‹¨ν•˜κ³  λ‹€λ₯Έ 단어λ₯Ό μ‚¬μš©ν•¨

  • μ‚¬μš©ν•˜λŠ” λ‹¨μ„œκ°€ 많이 변함

μ‚¬λžŒμ΄ μ΄ν•΄ν•˜κΈ° μ–΄λ €μš΄ 데이터

  • 음ν–₯ 뢄석 λ“±

λ¨Έμ‹ λŸ¬λ‹μ€ 이런 λ¬Έμ œλ“€μ— μ’‹λ‹€

  • κΈ°μ‘΄ μ†”λ£¨μ…˜μœΌλ‘œλŠ” λ§Žμ€ μˆ˜λ™ μ‘°μ •κ³Ό κ·œμΉ™μ΄ ν•„μš”ν•œ 문제

    • ν•˜λ‚˜μ˜ λ¨Έμ‹ λŸ¬λ‹ λͺ¨λΈμ΄ μ½”λ“œλ₯Ό κ°„λ‹¨ν•˜κ³  더 잘 μˆ˜ν–‰λ˜κ²Œ ν•  수 μžˆλ‹€!

  • 전톡적인 λ°©μ‹μœΌλ‘œλŠ” μ „ν˜€ ν•΄κ²° 방법이 μ—†λŠ” λ³΅μž‘ν•œ 문제

  • μœ λ™μ μΈ ν™˜κ²½

  • λ³΅μž‘ν•œ λ¬Έμ œμ™€ λŒ€λŸ‰μ˜ λ°μ΄ν„°μ—μ„œ 톡찰 μ–»κΈ°

λ¨Έμ‹ λŸ¬λ‹ μ‹œμŠ€ν…œμ˜ λΆ„λ₯˜

  • μ‚¬λžŒμ˜ 감독 ν•˜μ— ν›ˆλ ¨ or not

    • 지도

    • 비지도

    • 쀀지도

    • κ°•ν™” ν•™μŠ΅

  • μ‹€μ‹œκ°„μœΌλ‘œ 점진적 ν•™μŠ΅μ„ ν•˜λŠ” 것 or not

    • 온라인 ν•™μŠ΅

    • 배치 ν•™μŠ΅

  • λ‹¨μˆœν•˜κ²Œ μ•Œκ³  μžˆλŠ” data point와 μƒˆ data pointλ₯Ό λΉ„κ΅ν•˜λŠ” 것 or ν›ˆλ ¨ data setμ—μ„œ κ³Όν•™μžλ“€ 처럼 νŒ¨ν„΄μ„ λ°œκ²¬ν•˜μ—¬ 예츑 λͺ¨λΈμ„ λ§Œλ“œλŠ”μ§€

    • μ‚¬λ‘€κΈ°λ°˜ ν•™μŠ΅

    • λͺ¨λΈ 기반 ν•™μŠ΅

지도 ν•™μŠ΅

μ‚¬λžŒμ΄ μ›ν•˜λŠ” λ°©ν–₯으둜 ν•™μŠ΅

지도 ν•™μŠ΅μ—λŠ” μ•Œκ³ λ¦¬μ¦˜μ— μ£Όμž…ν•˜λŠ” ν›ˆλ ¨ 데이터에 λ ˆμ΄λΈ”μ΄λΌλŠ” μ›ν•˜λŠ” 닡이 포함됨.

μ§€λ„ν•™μŠ΅μ—λŠ” λΆ„λ₯˜μ™€ νšŒκ·€ 문제 κ°€ μžˆλ‹€.

μ’…λ₯˜

  • K-졜근 이웃 (KNN)

  • μ„ ν˜• νšŒκ·€

  • λ‘œμ§€μŠ€ν‹± νšŒκ·€

  • μ„œν¬νŠΈ 벑터 λ¨Έμ‹ 

  • κ²°μ • νŠΈλ¦¬μ™€ 랜덀 포레슀트

  • 신경망

λΉ„ 지도 ν•™μŠ΅

비지도 ν•™μŠ΅μ—λŠ” 말 κ·ΈλŒ€λ‘œ ν›ˆλ ¨ 데이터에 λ ˆμ΄λΈ”μ΄ μ—†λ‹€.

μ‹œμŠ€ν…œμ΄ μ•„λ¬΄λŸ° 도움 없이 ν•™μŠ΅ν•΄μ•Ό 함!

μ’…λ₯˜

  • ꡰ집

    • K-평균

    • 계측 ꡰ집 뢄석 (HCA)

    • κΈ°λŒ€κ°’ μ΅œλŒ€ν™” (EM)

  • μ‹œκ°ν™”μ™€ 차원 μΆ•μ†Œ

    • μ£Όμ„±λΆ„ 뢄석

    • 컀널 PCA

  • μ—°κ΄€ κ·œμΉ™ ν•™μŠ΅

쀀지도 ν•™μŠ΅

μ–΄λ–€ μ•Œκ³ λ¦¬μ¦˜μ€ λ ˆμ΄λΈ”μ΄ μΌλΆ€λ§Œ μžˆλŠ” 데이터도 λ‹€λ₯Ό 수 있음.

보톡은 λ ˆμ΄λΈ”μ΄ μ—†λŠ” 데이터가 많고 λ ˆμ΄λΈ”μ΄ μžˆλŠ” λ°μ΄ν„°λŠ” μ•„μ£Ό μ‘°κΈˆμž„.

​ -> 이λ₯Ό 쀀지도 ν•™μŠ΅ 이라고 함!

κ°•ν™” ν•™μŠ΅

ν•™μŠ΅ν•˜λŠ” μ‹œμŠ€ν…œμ„ agent 라고 λΆ€λ₯΄λ©° ν™˜κ²½μ„ κ΄€μ°°ν•˜μ—¬ 행동을 μ‹€ν–‰ν•˜κ³ ,

κ·Έ 결과둜 보상(ν˜Ήμ€ 벌점)을 λ°›μŒ.

μ‹œκ°„μ΄ μ§€λ‚˜λ©΄μ„œ κ°€μž₯ 큰 보상을 μ–»κΈ° μœ„ν•œ 정책이라고 λΆ€λ₯΄λŠ” μ΅œμƒμ˜ μ „λž΅μ„ 슀슀둜 ν•™μŠ΅ν•¨!

λŒ€ν‘œμ„± μ—†λŠ” ν›ˆλ ¨λ°μ΄ν„°

  • λŒ€λΆ€λΆ„μ˜ κΈ°κ³„ν•™μŠ΅ λ¬Έμ œλŠ” 예츑 이닀.

    • 즉, ν•™μŠ΅ν•˜μ§€ μ•Šμ€ μƒˆλ‘œμš΄ 데이터에 λŒ€ν•΄ 쒋은 μ„±λŠ₯을 보여야 ν•œλ‹€!

  • 이λ₯Ό μœ„ν•΄μ„œλŠ” ν•™μŠ΅ν•œ 데이터λ₯Ό μΌλ°˜ν™” ν•˜λŠ”κ²ƒμ„ 잘 ν•΄μ•Όν•œλ‹€.

  • μΌλ°˜ν™”λΌ 잘되렀면 μΌλ°˜ν™” 되기 μ›ν•˜λŠ” μƒˆλ‘œμš΄ 사둀λ₯Ό ν›ˆλ ¨ 데이터가 잘 λŒ€ν‘œν•˜λŠ” 것이 μ€‘μš”ν•˜λ‹€

ν›ˆλ ¨ λ°μ΄ν„°μ˜ κ³ΌλŒ€μ ν•©

κ³ΌλŒ€μ ν•©μ€ ν›ˆλ ¨ 데이터에 μžˆλŠ” 작음의 양에 λΉ„ν•΄ λͺ¨λΈμ΄ λ„ˆλ¬΄ λ³΅μž‘ν•  λ•Œ 일어남

해결방법

  • Parameter μˆ˜κ°€ 적은 λͺ¨λΈμ„ μ„ νƒν•˜κ±°λ‚˜ (ex. 고차원 λ‹€ν•­ λͺ¨λΈλ³΄λ‹€ μ„ ν˜• λͺ¨λΈ), ν›ˆλ ¨ 데이터에 μžˆλŠ” νŠΉμ • 수λ₯Ό μ€„μ΄κ±°λ‚˜, λͺ¨λΈμ— μ œμ•½μ„ κ°€ν•˜μ—¬ λ‹¨μˆœν™” μ‹œν‚€κΈ°

  • ν›ˆλ ¨ 데이터λ₯Ό 더 많이 λͺ¨μœΌκΈ°

  • ν›ˆλ ¨ λ°μ΄ν„°μ˜ μž‘μŒμ„ 쀄이기

Wrap-up

  • λ¨Έμ‹ λŸ¬λ‹μ€ λͺ…μ‹œμ μΈ κ·œμΉ™μ„ μ½”λ”©ν•˜μ§€ μ•Šκ³  기계가 λ°μ΄ν„°λ‘œλΆ€ν„° ν•™μŠ΅ν•˜μ—¬ μ–΄λ–€ μž‘μ—…μ„ 더 μž˜ν•˜λ„λ‘ λ§Œλ“œλŠ” 것

  • μ—¬λŸ¬ μ’…λ₯˜μ˜ λ¨Έμ‹ λŸ¬λ‹ μ‹œμŠ€ν…œμ΄ 있음

    • 지도 ν•™μŠ΅

    • 배치 ν•™μŠ΅

    • 온라인 ν•™μŠ΅

    • 사둀 기반 ν•™μŠ΅

    • λͺ¨λΈ 기반 ν•™μŠ΅

Last updated