컨텐츠상세보기

데이터 과학 연구를 위한 핵심 개념 및 기법
데이터 과학 연구를 위한 핵심 개념 및 기법
  • 저자김남규, 전민규, 이아영, 김윤하, 유예린, 한민아, 문혜영 저
  • 출판사심통
  • 출판일2022-09-15
  • 등록일2022-12-16
보유 1, 대출 1, 예약 0, 누적대출 11, 누적예약 2

책소개

“이 책에서 다루는 기술을 10년 뒤에도 사용하는 사람은 아무도 없을지 모른다. 하지만 기술을 통해 이 책에서 소개하고자 하는 기술 개념(Technology Concept)을 잘 이해하는 사람은 10년 뒤에도 그 시기의 최신 기술을 누구보다 잘 사용하고 있을 것이다.”
이러한 관점에서 데이터 과학 분야의 연구를 수행하고 논문을 작성하기 위해 도움이 될 수 있는 기술들을 선정하였으며, 이 기술들에 대한 핵심 개념 및 실제 적용 경험을 요약하여 본 도서로 정리하게 되었습니다. [01. Pre-trained Language Model]은 기존에 축적된 지식을 활용하여 새로운 문제를 해결하는 방법을 소개하고 있습니다. [02. Attention]에서는 방대한 정보 중 문제 해결에 도움이 되는 정보만을 더욱 집중하여 받아들이는 방법을 익힐 수 있습니다. [03. Autoencoder]는 자신을 자신답게 만드는 핵심 요소를 추출하는 추상화 과정을 비지도 학습(Unsupervised Learning)에 적용했다는 점이 매우 흥미롭습니다. [04. Knowledge Distillation]은 현재도 다양한 모델이 제안되고 있는 최신 기술로, ‘청출어람’을 구현할 수 있는 실마리를 제시하고 있어 주목해야 합니다. [05. Topic Modeling]은 인간이 지식을 기록, 공유, 습득하는 가장 대표적인 도구가 텍스트임을 감안하면, 향후에도 다양한 분야에서 꾸준히 사용될 것으로 기대합니다. 마지막으로 [06. 파이썬 실습환경 구축]은 연구자의 아이디어를 코드로 구현할 수 있는 가장 효율적인 도구 중 하나인 파이썬 실습환경을 다루고 있습니다.

목차

01 Pre-trained Language Model
1. 사전학습 언어 모델
1-1 언어 모델
1-2 대표적인 사전학습 언어 모델
2. Transformer
2-1 Transformer 소개
2-2 Encoder
2-3 Decoder
2-4 Transformer 학습
3. BERT
3-1 BERT 기본 개념
3-2 BERT 구조
3-3 BERT 학습 방식
3-4 BERT 사전학습
4. BERT 실습
4-1 실험 환경
4-2 데이터 준비
4-3 데이터 전처리 훈련 셋
4-4 데이터 전처리 테스트 셋
4-5 모델 생성
4-6 모델 학습
4-7 테스트 셋 평가

02 Attention
1. 어텐션(Attention) 개념
1-1 어텐션 메커니즘(Attention Mechanism)
1-2 어텐션(Attention) 등장 배경 
1-3 어텐션(Attention) 함수
1-4 어텐션(Attention) 동작 과정 
2. 어텐션(Attention) 종류
2-1 Dot-Product Attention
2-2 Scaled Dot-Product Attention
2-3 Bahdanau Attention 
2-4 Sparse Attention
3. 어텐션(Attention) 활용 
3-1 기계 번역(Machine Translation) 
3-2 어텐션 실습

03 Autoencoder
1. 오토인코더
1-1 오토인코더
1-2 오토인코더 특징
1-3 기본적인 오토인코더 실습
2. 오토인코더 종류
2-1 Denoising Autoencoder
2-2 Sparse Autoencoder
3. 오토인코더 활용 분야
3-1 차원 축소
3-2 오토인코더 기반 차원 축소 실습
3-3 분류
3-4 분류를 위한 오토인코더 실습
3-5 이상 탐지
3-6 오토인코더 기반 이상 탐지 실습

04 Knowledge Distillation
1. 지식 증류(Knowledge Distillation)
1-1 전이 학습 VS 지식 증류
1-2 지식 증류 필요성
1-3 KD 핵심 용어
1-4 KD 코드
2. 다양한 KD
2-1 FitNet
2-2 Teacher Assistant
3. 다양한 모델 경량화 방법
3-1 가지치기(Pruning)
3-2 양자화(Quantization)

05 Topic Modeling
1. 토픽모델링(Topic Modeling)
1-1 토픽모델링 발전 과정
1-2 LDA 개념
1-3 LDA 실습 (전처리)
1-4 LDA 실습 (코드 구현) 
1-5 LDA 실습 (실습 결과)
2. Dynamic Topic Modeling (DTM)
2-1 DTM 개념
2-2 DTM 실습 (전처리 및 코드 구현1)
2-3 DTM 실습 (코드 구현 2)
2-4 DTM 실습 (실습 결과)
3. Author Topic Modeling (ATM)
3-1 ATM 개념
3-2 ATM 실습(코드 구현)
3-3 ATM 실습(실습 결과)

06 파이썬 실습환경 구축
1. 코랩 설치
1-1 Colab 설치
1-2 Colab 실행
2. 환경 설정
2-1 런타임 유형 변경
2-2 테마 설정
2-3 행 번호 표시 
2-4 모드 설정
3. 유용한 기능
3-1 Colab과 Google Drive 연동
3-2 파일과 폴더관리 
3-3 한글 처리

한줄 서평