classification 2

LSTM으로 스팸메일 분류하기

이번에는 "딥러닝을 이용한 자연어 처리 입문"에 게재된 스팸메일 분류하기를 통해 자연어처리(NLP)의 과정을 정리해보고자 한다. 본 내용은 10장의 RNN을 이용한 텍스트 분류의 내용이다. 데이터의 샘플 수 확인하기 ( 데이터 크기 확인 ) 데이터 타입과 결측값 확인 데이터 레이블 분포 확인 train데이터와 test데이터 생성 토큰화 단어등장 빈도 확인 ( 빈도수가 적은 단어 제거 ) LSTM으로 스팸 메일 분류 필요 라이브러리 설치 import numpy as np import pandas as pd import matplotlib.pyplot as plt import urllib.request from sklearn.model_selection import train_..

Data-Science/NLP 2022.01.31

문장 관계 분류 모델, KoBERT로 돌려보다

0. 목차 Bert를 사용하는 이유 Bert 활용 분야 코드 (tensorflow) 1. BERT를 사용하는 이유 "Attention is all you need"이라는 논문이 나온 이후로 자연어처리(NLP)분야는 더욱 빠르게 발전하기 시작했다. 논문에서 Transformer라고 이름을 붙힌 이 모델은 Attention layer를 활용하여 인코더(Encoder)와 디코더(Decoder)를 만들어 번역모델로도 사용하곤 했다. 추후 이 모델의 인코더 혹은 디코더만을 활용하여, 인코더(Encoder)로 BERT와 같은 모델을 만들었고, 디코더(Decoder)로 GPT와 같은 모델을 만들었다. 각각의 장점으로 인코더(Encoder)는 문장의 문맥을 인식하는 데 유리하고, 디코더(Decoder)는 문장 생성에 ..

Data-Science/NLP 2022.01.31