오늘 한 것 : 모던패밀리 시즌 7-11, 알렉사&케이티 등 시트콤 자막 8만 줄 추가, 넷플릭스 자막 총 11만 줄 확보
하지만 어제 끝났다고 생각한 전처리에 함정이 있었으니... 이걸로 2시간 날렸다.
T5 모델로 번역기 어떻게 만들지? 하고 찾아보는데
T5의 다국어 버전인 mT5로 huggingface를 이용해 번역기를 만드는 튜토리얼이 있어서 아싸 ㅠㅠ 이제 다 끝났다 ㅠㅠ 하고 생각했는데, ㅎ.... 이렇게 잘 풀릴 리가 없지.
튜토리얼은 hugging face의 transfomrers를 기반으로 만든 simpletransformer라는 라이브러리다.
쉽게 모델을 훈련할 수 있다는 게 장점인데,
mT5 모델을 사용하는 경우 경우 토크나이저를 지정할 수 없다.
ㅋㅋㅋㅋ,,, 실화인가...
튜토리얼에서는 Tatoeba 챌린지에서 제공하는 언어 데이터세트를 사용하는데,
영어-한국어 데이터셋의 경우 ... 한국어 파일을 열어보니 인코딩이 엄청 요상하다. (받은 파일 압축 풀어보고 코랩에서 열어보니 요상한거라, hugging face에서 바로 불러오면 괜찮을지는 또 모르겠다.)
이게 유용한지도 모르겠는데 데이터 셋은 390만개나 되고
심플 트랜스포머는 그 데이터셋을 2배로 증폭시켜 영->한, 한->영 데이터가 있는 컬럼을 추가한다.
그 다음에 입력어의 정보를 마스킹화해서 모델한테 인풋 데이터가 어떤 언어인지 맞추게 하겠다는데, (다국어 번역을 지원하는 모델에게 유용하다)
다국어 번역 모델에겐 유용하겠으나.. 지금의 나에겐 아니었다. ^.ㅜ
그리고 390*2 = 780만개의 데이터를 코랩이 버텨주질 못한다... 흑흑...
그래서 헬싱키 en-ko 데이터를 버리고, 심플트랜스포머도 버릴 듯 하다.
오늘의 소득은 그래도 hugging face에 토큰화한 단어 목록이라도 올렸다는 거...!
huggingface.co/AimB/konlpy_berttokenizer_helsinki/tree/main/BertStyleMecab
'머신러닝, 딥러닝' 카테고리의 다른 글
CCTV 영상인식 모델 만들기 1 - C3D 논문 공부+구현 (3) | 2021.05.18 |
---|---|
딥러닝 프로젝트 4 : mT5 모델로 번역기 만들기 (2) | 2021.04.28 |
딥러닝 프로젝트 2: 넷X릭스 자막 전처리 (0) | 2021.04.25 |
딥러닝 프로젝트 1: 번역 모델을 위한 삽질 (0) | 2021.04.24 |
skimage 이미지 일괄 리사이즈 방법 (0) | 2021.04.23 |