본문 바로가기

분류 전체보기

(262)
Logstash file input시 파일 열고 수정하면 데이터 중복 집계되는 이유 input { file { path => "/home/test/*.log" start_position => "beginning" } } start_position => "beginning" 으로 로그스태시가 파일을 처음부터 읽도록 설정한다. 오래된 데이터를 임포트할 때 유용하다. (매번 파일의 처음에서 읽는 게 아니다.) 로그스태시 file input 설정을 주면, 로그스태시가 시작하면서 sincedb path를 자동으로 생성한다. [INFO ] 2022-02-25 06:21:51.942 [[main]-pipeline-manager] file - No sincedb_path set, generating one based on the "path" setting {:sincedb_path=>"/usr/sha..
혼자 공부하는 머신러닝+딥러닝 6주차 인공 신경망 생물학적 뉴런에서 영감을 받아 만든 머신러닝 알고리즘입니다. 신경망은 기존의 머신러닝 알고리즘으로 다루기 어려웠던 이미지, 음성, 텍스트 분야에서 뛰어난 성능을 발휘하면서 크게 주목받고 있습니다. 인공 신경망 알고리즘을 종종 딥러닝이라고도 부릅니다. 밀집층 Dense 가장 간단한 인공 신경망의 층입니다. 뉴런들이 모두 연결되어 있기 때문에 완전 연결층Fully Connected Layer라고도 부릅니다. 특별히 출력층에 밀집층을 사용할 때는 분류하려는 클래스와 동일한 개수의 뉴런을 사용합니다. 입력층과 출력층 사이에 있는 모든 층을 은닉층hidden layer이라고 부릅니다. 원-핫 인코딩 정수값을 배열에서 해당 정수 위치의 원소만 1이고 나머지는 모두 0으로 변환합니다. 이런 변환이 필요한..
스파크 완벽 가이드 Part 1 : 빅데이터와 스파크 간단히 살펴보기 책의 내용을 정리하는 글입니다. Part 1의 내용은 앞으로 이 책이 어떤 내용을 다룰지, 각 내용은 어떤 것인지에 대한 개괄적인 설명으로 구성되어 있습니다. 스파크의 등장 배경 2005년까지, 컴퓨터 프로세스는 매년 더 많은 양의 명령어를 처리할 수 있게 발전했습니다. 그 결과 애플리케이션들도 빨라졌죠. 이떄까지는 대규모의 데이터 처리를 프로세서의 성능 향상에 맡겼습니다. 하지만 2005년경, 하드웨어의 성능 향상이 멈추면서 하드웨어 개발자들은 모든 코어가 같은 속도로 동작하는 병렬 CPU 코어를 더 많이 추가했습니다. 데이터를 저장하는데 드는 비용은 14개월마다 절반으로 줄었기에, 데이터 수집 비용은 극히 저렴해졌습니다. 자연스레 사람들이 수집하는 데이터의 양은 많아졌습니다. 아파치 스파크는 데이터를..
Logstash는 로그를 왜 message라는 field로 저장할까? 요새 Fluent Bit를 써서 EKS 안의 애플리케이션 로그를 수집하고 Kinesis firehose를 버퍼로 사용한 후, 이를 Logstash에서 수집한 후 ES로 보내 Kibana에서 분석하는 환경을 구성 중이다. "log"=>"* 2022-02-16 12:38:44,245 [Timer-0] INFO |c.e.demo.SpringBootLoggerApplication: 12:38:44 ::: Hello World ::: 1"} 그 중에서 Fluent Bit는 로그 파일을 "log"라는 key에 저장해서, 기존 Logstash 설정을 사용하기 위해서는 "log" 를 "message"로 바꿔주어야 했다. { "message" => "Hello Logstash!" } 그럼 애초에 왜 Logstash는 "..
1시간 20분만에 코틀린 앱 만들기 : 오준석의 안드로이드 생존코딩 한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다. ** 자바를 찍먹만 해보고 코틀린은 처음 해보는 사람의 개인적인 리뷰입니다. 코틀린은 평소에도 관심이 있던 언어였습니다. 비개발자이던 시절, 개발자 친구에게 파이썬을 배우고 싶다고 하니 친구가 코틀린을 추천해주던 기억이 나네요. 그때부터 "코틀린을 언젠가 배워야지..."는 제 기억 한켠에 남아 있었는데, 이번에 이 책으로 처음 도전해보게 되었습니다. 초보자도 쉽게 9가지의 앱을 만들 수 있도록 해주는 이 책은, 안드로이드 스튜디오 설치부터 설정까지 친절하게 설명해줍니다. 그리고 처음부터 코틀린 문법부터 설명하는 게 아니라, 간단한 앱 만들기부터 시작합니다. 문법부터 설명했으면 아마 첫 애플리케이션을 만들기도 전에 책을 몇번은 덮다 다시 폈을텐데,..
혼자 공부하는 머신러닝+딥러닝 5주차 [기본 미션] K-평균 알고리즘 1. 데이터에서 무작위로 k개의 클러스터 중심을 정하고(Initial centroids), 2. 클러스터의 중심에서 가장 가까운 샘플들을 하나의 클러스터로 묶는다.(Iteration 1 에서 구역을 나눔), 3. 클러스터에 속한 샘플의 평균값으로 클러스터 중심을 변경하고, 4. 클러스터 중심에 변화가 없을 때까지 3-4를 반복하는 것이 k-평균 알고리즘이다. [선택 미션] 1. 특성이 20개인 대량의 데이터셋이 있습니다. 이 데이터셋에서 찾을 수 있는 주성분 개수는 몇 개일까요? -> 20개. 특성이 20개이니 주성분도 20개가 된다. 2. 샘플 개수가 1,000개이고 특성 개수는 100개인 데이터셋이 있습니다. 즉 이 데이터셋의 크기는 (1000, 100) 입니다. 이 ..
Kubernetes - Fluent Bit 로 사용자 로그 S3에 output 설정하기 부제 : 온갖 예외 케이스를 가정하여 사용자 로그의 S3 경로 잡기 1. Fluent Bit에서 S3으로 output 보내기 Fluent Bit 에서 S3 output을 쓰는 건 쉽다. [OUTPUT] Name s3 Match * bucket my-bucket region us-west-2 s3_key_format /$TAG[2]/$TAG[0]/%Y/%m/%d/$UUID.gz s3_key_format_tag_delimiters .- 이렇게 s3 output 설정을 넣어주고 butket과 key format을 지정해주면 된다. 나의 경우는 EKS 안의 애플리케이션에서 발생한 사용자 로그를 시스템 로그(var/log/containers/$podname~.log 식으로 저장되는 파드의 로그)와 분리하여 S3 ..
혼자 공부하는 머신러닝+딥러닝 4주차 [기본 미션] Cross Validation이란? 데이터를 train set, test set로 분할하고 모델의 성능을 올바르게 예측하려면 테스트 세트는 모델을 만들고 나서 마지막에 딱 한번만 사용하는 게 좋습니다. 테스트 세트를 사용하지 않고 모델이 과대적합인지, 과소적합인지 판단하는 간단한 방법은 훈련 세트를 검증 세트로 나누는 겁니다. 훈련 세트:검증 세트:테스트 세트를 6:2:2로 나누는 방법도 있지만, 훈련 세트 자체를 N등분 하여 차례대로 검증 세트로 쓰고, 이 결과를 종합하여 본다면 보다 안정적인 검증 점수를 얻고, 훈련에 더 많은 데이터를 사용할 수 있습니다. 분류 문제의 경우는 정답 클래스별로 데이터의 비율이 다를 수 있는데요, 데이터를 N등분할 때 각각의 클래스별로 N등분이 담기게 하려..