LongCut logo

실무 문제 해결을 위한 데이터 사이언스 미리보기(2)

By 패스트캠퍼스

Summary

## Key takeaways - **바나나 사과 비유로 이상치 탐지**: 옛날 드라마 '응답하라 1998'에서 껍질 벗긴 바나나를 사과로 착각하는 장면처럼, 학습 데이터에 바나나가 없으면 할아버지 세대는 바나나를 사과로 오판할 수 있다. [00:15], [00:25] - **다양한 사과 학습 과정**: 현대 아이들은 빨간 사과, 초록 사과, 벌레 먹은 사과 등 여러 종류를 보여주며 사과 특징을 학습한다. 마찬가지로 바나나도 반점 있는 것부터 작은 몽키 바나나까지 다양하게 보여준다. [01:38], [02:09] - **할아버지 세대 사과 편향**: 할아버지 세대는 바나나를 본 적 없어 사과만 주구장창 보여주며 '동그란 과일은 무조건 사과'로 학습한다. 이로 인해 수박도 사과로 오인한다. [03:02], [03:23] - **일반화 vs 특수화 트레이드오프**: 일반화는 정상 범주를 넓혀 이상치를 정상으로 오판하고, 특수화(구체화)는 범주를 좁혀 정상 데이터를 이상치로 오판하는 트레이드오프다. [04:06], [04:28] - **과적합과 과소적합 문제**: 너무 일반화하면 이상치를 정상으로, 너무 특수화하면 정상 데이터를 이상치로 잘못 판별하는 과소적합과 과적합 문제가 발생한다. [04:39], [04:48]

Topics Covered

  • 바나나 한 다발의 어린시절 희귀성
  • 다양한 과일 노출로 학습된 분류
  • 데이터 부족 시 과도한 일반화
  • 일반화 vs 구체화 트레이드오프

Full Transcript

자 그러면 이 이상치 탐지 는 도대체 어떤 방식을 악습이 되느냐 다시 한번 개념적인 예시로 보여드릴 게요 제가 이 예시를 드리면 굉장히 이제 옛날

사람처럼 보이는데 예전에 유행했던 드라마 중에 응답하라 199 8발 응 파일이라는 이제 드라마가 있었습니다 거기서 굉장히 공감했던 저는

개인적으로 공감했던 장면 중에 하나가 뭐냐면요 슈퍼에서 굉장히 껍질이 검색으로 다 색이 바른 바나나를 굉장히 비싼 값에 사서 아 새가족이

나누어 먹었던 장면이 있어요 그 장면을 보고 어린시절 생각이 많이 났었는데 왜 그랬냐 면 당시에는 저도 이제 그 80년대에 이제 그 태어난

사람 이기 때문에 해 그 상황을 제 공감할 수가 있는데 바나나 라는 과일 자체가 아마도 수입 자유화가 안되어 있어서 굉장히 비싼 과 일이었습니다 그래서 귀한 손님이

오시면 이렇게 바나나 한 다발 수 있죠 비닐 봉지 들고 선물로 가지고 오시고 그러셨군요 그랬던 어린 시절 기억이 있는데 저희의 부모님 저희의 할아버지 뭐

이런 저어 기준으로 그런 3대 분들은 아마 우리나라에서 태어났을 때 바나나를 한 번 더 보신 적이 없을 거에요 그러면 이제

과일을 갓 태어난 아이 한테 양육을 하면서 과일 1 이제 각각의 과일을 판단하게 하는 분류 길을 머릿속에 학습 시킨다 라고 가정을

해보겠습니다 그러면 지금 태어난 우리나라의 아이들은 이제 이렇게 배우는 거죠 굉장히 여러 종류의 사과를 눈앞에

보여 줍니다 엄마 파카 빨갛게 잘익은 사과도 보여주고요 초록색 사과도 보여주고 초록색과 빨간색이 얼룩덜룩 섞여 있는 거 뭐 약간 벌레 먹어서

까맣게 되어있는거 또는 이제 사양에서 쓴 이제 약간 모양이 그 조금 다른 사과 이런 것들을 굉장히 많은 사과 등을 보여주면서 얘야 이게 사과한다

이렇게 설명을 해줘요 마찬가지로 여러 종류의 팔아도 보여줍니다 노랗게 잘익은 바늘에서 보여주지만 검정색 반점이 좀 금 섬

듬성 있는 반응에도 보시고 완전히 검게 갈변 되버린 바르도 보여주고 크기가 작은 몽키 바나나 도 보여주고 이러면서 이런 것들이 모두

바나나 야 라고 알려줘요 그런 다음에 그러면 아이는 머릿속에 다 름대로 사과의 특징과 바나나의 특징을 나름대로 프로세싱 을 해서 9분선을

가지고 있을까요 그리고 난 다음에는 새로운 과일 바나나 사과 중에 하나를 눈앞에 딱 보여주면서 이거는 사관이 바 나란히

이렇게 물어보면 지금까지 그 아이가 봤던 경험들을 토대로 이게 과일이 사관 집안 않은지를 판별 판단을 하게 되는 겁니다 반면에

저희의 할아버지 세로 한번 가볼게요 저의 할아버지가 같아서 제 할아버지 아버지 어머니 증조 할아버지 할머니가 이제 과일을 보여줍니다

아무리 수를 써도 바나나를 보여줄 수 없는 상황입니다 그래서 사과만 주구장창 보여줍니다 이것도 사과한다 저거 또 사과한다 있다 사과만 보시면 아이의 머릿속에는

이제 사과가 무엇인지에 대한 개념이 잡힙니다 그래서 만약에 어떤 아이가 이렇게 정리한다고 해볼게요 동그란 과일은 무조건 사 거다 이렇게

정리하게 되면 실제로 사과가 가지고 있는 범위보다 훨씬 더 넓은 정의를 갖게 됩니다 왜냐 수박도 동그란 컷 은요 그러면 수박

입장에서는 어 다도 사관과 물어보면 아 이걸 보고서 이제 생각을 바꾸죠 아 그렇다면 동그랗고 주먹만 하면서

빨간 색만 4 바다 라고 하면 이번엔 또 영역이 너무 사과의 영역이 너무 좁아 졌습니다 왜냐 아 우리 라고 아주 품종 중에 초록색 사과도 있거든 야 그럼 난 사과가

아닌 거야 이렇게 물어보게 되는 겁니다 이러한 관점이 이상치 탐지 에서 의 일반화 제가 놀 yj 션과 특수한

또는 구체화 로 불리우는 스페셜 ij 전에 트레이드 오프 입니다 일반 않은 데이터가 주어지면 정상이라고 이제 정의된 데이터 들이 주어 졌을때

해당하는 데이터에 영역을 어디까지 확장해 갈 것인가에 대한 부분이고요 서 에서 보신 것처럼 밖으로 나가는 개념을 확장시키는 게 일반화의 개념

이구요 특수화 또는 구체화 라는 것은 이거를 주어진 데이터로 부터 정상 범주의 개념을 좁혀 가는 겁니다 일반에 너무 치중을 하게 되면 정상

여기 너무 넓어 지니까 원래는 이상치 인데도 정상으로 잘못 판별이 되는 문제가 발생을 하고요 너무 특수 알을 강하게 하면 구체화를

시키게 되면 과 적합 의 위엄 바꿔 말하면 원래도 정상 인데도 불구하고 이 상체로 잘못 판별이 되는 그러한 문제가 발생을 합니다

Loading...

Loading video analysis...