본문 바로가기

개발

(68)
데이터프레임 안의 값만 출력하기 예전에 코테 문제를 풀면서 데이터 프레임 안의 요소를 깔끔하게 형식으로 출력 못한 적이 있다. 파이썬 기초 문법을 더 배우고 나니, unzip 형식으로 해결할 수 있었다. for i in df.values: a,b,c,d = i print(a,b,c,d) 로 데이터프레임 안의 항목들을 위 형식처럼 꺼낼 수 있다.
bash: pip: command not found 해결 상황 :VS code에서 가상 환경을 만든 후 pip install -r requirements.txt를 하려 했더니 다음과 같은 오류가 떴다. 해결방법 : 기존 가상환경 삭제 새 가상환경을 만들 때 파이썬 버전을 명시해준다. $ conda create --name [name] python==3.8 그럼 pip과 파이썬이 함께 설치된다.
UnpicklingError: invalid load key, 'v'. 문제 해결 UnpicklingError: invalid load key, 'v'. During handling of the above exception, another exception occurred: OSError Traceback (most recent call last) /usr/local/lib/python3.7/dist-packages/transformers/modeling_utils.py in from_pretrained(cls, pretrained_model_name_or_path, *model_args, **kwargs) 1064 except Exception: 1065 raise OSError( -> 1066 f"Unable to load weights from pytorch checkpoint ..
파이썬 \u200b 제거 df['kr'] = df['kr'].replace(u'\u200b','') df['kr'] = df['kr'].replace('\u200b','') 이 방법이 둘다 안 먹혔다. 하지만 정규식으로 지우니 지워진다! import re def preprocess_sentence_kr(w): w = w.strip() w = re.sub(r"[^0-9가-힣?.!,¿]+", " ", w) # \n도 공백으로 대체해줌 w = w.strip() return w df['kr'] = [preprocess_sentence_kr(l) for l in df['kr']] 이렇게 하니 깔끔하게 없어진다!
파이썬으로 gz 파일 열기(Helsinki eng-kor 파일 열기) object.pouta.csc.fi/Tatoeba-Challenge-v2020-07-28/eng-kor.tar 위 링크에서 영어-한국어 번역 모델을 위한 데이터를 다운받을 수 있다. 학습용 영-한 pair가 379만여개 테스트용 pair는 2414개다. 다운을 받으면 학습용 데이터는 .gz 파일에 담겨있는데, 따라하는 튜토리얼에는 그런 게 없었다.. ㅜ ㅜ >> 해결 저 gz 파일을 한번씩 더 압축을 풀어줘야 합니다 그럼 이렇게 아름다운 src 파일이 나오니 이걸로 진행하면 됩니다. def prepare_translation_datasets(data_path): with gzip.open("train.trg.gz", mode="rt", encoding="utf-8") as f: korean_text = ..
Colab에서 Conda 가상환경 설치하고 사용하기 * 주의 : 코랩 런타임이 재시작되면 설치한 것들은 다 날라갑니다. * 코랩에서는 어차피 개별 노트북이기 때문에 가상환경을 굳이 만들 필요가 없다고 합니다. 그냥 노트북 맨 첫 셀에 패키지를 쭉 설치하는 코드를 넣고 사용하거나, CLI로 가상환경 만들고 주피터 노트북 쓰는 게 맘 편할 듯 하네요.. ㅎㅎ 다음 셀을 코랩에서 실행해줍니다. ipynb 노트북으로 다운받아서 편하게 실행하시려면 파이썬 경로, 버전 확인 !which python # should return /usr/local/bin/python !python --version !echo $PYTHONPATH # /env/python pythonpath 초기화 %env PYTHONPATH= ###############################..
flask-mongoengine으로 추가한 데이터가 Mongodb에서 보이지 않을 때 내가 해결한 방법 : api로 받아온 json 파일의 스펠링을 1)스키마와 2)몽고디비에 추가하는 함수에 들어갈 변수와 일치시켜야 한다. 몽고디비를 사용한 이유가 json 파일 자체를 간편하게 추가할 수 있다는 장점 때문이었는데, ORM 방식으로 몽고디비를 사용하기 위해서는 결국 노가다로 변수를 넣어주어야 했다... 내가 사용한 데이터는 restAPI 사이트에서 키를 발급받아 받아온 IMDb 데이터로, json 파일에 key가 대문자로 들어있었다. # 주의 : 무조건 소문자가 아니라 json 파일과 일치하도록 key값의 대소문자를 넣어야 합니다. class Movie(db.Document): title = db.StringField() year = db.IntField() rated = db.String..
mongoengine NotUniqueError raise NotUniqueError(message % err) mongoengine.errors.NotUniqueError: Tried to save duplicate unique keys (E11000 duplicate key error collection: frated.movie index: imdbid_1 dup key: { imdbid: null }, full error: {'index': 0, 'code': 11000, 'keyPattern': {'imdbid': 1}, 'keyValue': {'imdbid': None}, 'errmsg': 'E11000 duplicate key error collection: frated.movie index: imdbid_1 dup key: { imdbid..