본문 바로가기

머신러닝, 딥러닝

딥러닝 프로젝트 3 : Tatoeba opus set, simpletransformers

오늘 한 것 : 모던패밀리 시즌 7-11, 알렉사&케이티 등 시트콤 자막 8만 줄 추가, 넷플릭스 자막 총 11만 줄 확보

하지만 어제 끝났다고 생각한 전처리에 함정이 있었으니... 이걸로 2시간 날렸다.

T5 모델로 번역기 어떻게 만들지? 하고 찾아보는데

T5의 다국어 버전인 mT5로 huggingface를 이용해 번역기를 만드는 튜토리얼이 있어서 아싸 ㅠㅠ 이제 다 끝났다 ㅠㅠ 하고 생각했는데, ㅎ.... 이렇게 잘 풀릴 리가 없지.

튜토리얼은 hugging face의 transfomrers를 기반으로 만든 simpletransformer라는 라이브러리다.

쉽게 모델을 훈련할 수 있다는 게 장점인데,

mT5 모델을 사용하는 경우 경우 토크나이저를 지정할 수 없다.

 

ㅋㅋㅋㅋ,,, 실화인가...

튜토리얼에서는 Tatoeba 챌린지에서 제공하는 언어 데이터세트를 사용하는데,

영어-한국어 데이터셋의 경우 ... 한국어 파일을 열어보니 인코딩이 엄청 요상하다. (받은 파일 압축 풀어보고 코랩에서 열어보니 요상한거라, hugging face에서 바로 불러오면 괜찮을지는 또 모르겠다.)

이게 유용한지도 모르겠는데 데이터 셋은 390만개나 되고

심플 트랜스포머는 그 데이터셋을 2배로 증폭시켜 영->한, 한->영 데이터가 있는 컬럼을 추가한다.

 

그 다음에 입력어의 정보를 마스킹화해서 모델한테 인풋 데이터가 어떤 언어인지 맞추게 하겠다는데, (다국어 번역을 지원하는 모델에게 유용하다)

다국어 번역 모델에겐 유용하겠으나.. 지금의 나에겐 아니었다. ^.ㅜ

그리고 390*2 = 780만개의 데이터를 코랩이 버텨주질 못한다... 흑흑...

램... 죽지마...

그래서 헬싱키 en-ko 데이터를 버리고, 심플트랜스포머도 버릴 듯 하다.

오늘의 소득은 그래도 hugging face에 토큰화한 단어 목록이라도 올렸다는 거...!

huggingface.co/AimB/konlpy_berttokenizer_helsinki/tree/main/BertStyleMecab