본문 바로가기

개발/Python

파이썬 \u200b 제거

 

df['kr'] = df['kr'].replace(u'\u200b','')
df['kr'] = df['kr'].replace('\u200b','')

이 방법이 둘다 안 먹혔다.

하지만 정규식으로 지우니 지워진다!

 

import re

def preprocess_sentence_kr(w):
  w = w.strip()
  w = re.sub(r"[^0-9가-힣?.!,¿]+", " ", w) # \n도 공백으로 대체해줌
  w = w.strip()
  return w
df['kr'] = [preprocess_sentence_kr(l) for l in df['kr']]

이렇게 하니 깔끔하게 없어진다!