df['kr'] = df['kr'].replace(u'\u200b','')
df['kr'] = df['kr'].replace('\u200b','')
이 방법이 둘다 안 먹혔다.
하지만 정규식으로 지우니 지워진다!
import re
def preprocess_sentence_kr(w):
w = w.strip()
w = re.sub(r"[^0-9가-힣?.!,¿]+", " ", w) # \n도 공백으로 대체해줌
w = w.strip()
return w
df['kr'] = [preprocess_sentence_kr(l) for l in df['kr']]
이렇게 하니 깔끔하게 없어진다!
'개발 > Python' 카테고리의 다른 글
bash: pip: command not found 해결 (0) | 2021.05.06 |
---|---|
UnpicklingError: invalid load key, 'v'. 문제 해결 (0) | 2021.04.27 |
파이썬으로 gz 파일 열기(Helsinki eng-kor 파일 열기) (1) | 2021.04.26 |
f-string : 파이썬에서 문자열에 변수 넣어주기 (0) | 2021.01.25 |
Enumerate 함수 (0) | 2021.01.09 |