개발/Python
파이썬 \u200b 제거
AimB
2021. 4. 26. 19:17
df['kr'] = df['kr'].replace(u'\u200b','')
df['kr'] = df['kr'].replace('\u200b','')
이 방법이 둘다 안 먹혔다.
하지만 정규식으로 지우니 지워진다!
import re
def preprocess_sentence_kr(w):
w = w.strip()
w = re.sub(r"[^0-9가-힣?.!,¿]+", " ", w) # \n도 공백으로 대체해줌
w = w.strip()
return w
df['kr'] = [preprocess_sentence_kr(l) for l in df['kr']]
이렇게 하니 깔끔하게 없어진다!