본문 바로가기

인프라,데이터/Spark

(3)
구글 코랩에서 Pyspark 사용하기 https://spark.apache.org/downloads.html 에서 아파치 하둡 2.7과 함께 사용할 수 있는 스파크 버전을 확인한다. !apt-get install openjdk-8-jdk-headless -qq > /dev/null !wget -q https://downloads.apache.org/spark/spark-3.2.1/spark-3.2.1-bin-hadoop2.7.tgz !tar -xvf spark-3.2.1-bin-hadoop2.7.tgz !pip install -q findspark !pip install pyspark 만약 버전이 다르다면 위 코드에서 버전을 변경하면 된다. import os os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8..
스파크 완벽 가이드 Part 2 : 구조적 API (1) 스파크 트랜스포메이션*의 처리 과정을 정의하는 분산 프로그래밍 모델입니다. 트랜스포메이션 : 지향성 비순환 그래프(DAG)로 표현되는 명령을 만들어냅니다. 액션 : 하나의 잡을 클러스터에서 실행하기 위해 스테이지와 태스크로 나누고 DAG 처리 프로세스를 실행합니다. 트랜스포메이션과 액션으로 다루는 논리적 구조가 바로 DataFrame과 Dataset입니다. 새로운 DataFrame과 Dataset을 만들려면 트랜스포메이션을 호출해야 합니다. 연산을 시작하거나 사용한 언어에 맞는 데이터 타입으로 변환하려면 액션을 호출해야 합니다. 구조적 API 비정형 로그 파일부터 반정형 CSV 파일, 파케이Parquet 파일까지 다양한 유형의 데이터를 처리할 수 있습니다. 구조적 API에는 Dataset, DataFra..
스파크 완벽 가이드 Part 1 : 빅데이터와 스파크 간단히 살펴보기 책의 내용을 정리하는 글입니다. Part 1의 내용은 앞으로 이 책이 어떤 내용을 다룰지, 각 내용은 어떤 것인지에 대한 개괄적인 설명으로 구성되어 있습니다. 스파크의 등장 배경 2005년까지, 컴퓨터 프로세스는 매년 더 많은 양의 명령어를 처리할 수 있게 발전했습니다. 그 결과 애플리케이션들도 빨라졌죠. 이떄까지는 대규모의 데이터 처리를 프로세서의 성능 향상에 맡겼습니다. 하지만 2005년경, 하드웨어의 성능 향상이 멈추면서 하드웨어 개발자들은 모든 코어가 같은 속도로 동작하는 병렬 CPU 코어를 더 많이 추가했습니다. 데이터를 저장하는데 드는 비용은 14개월마다 절반으로 줄었기에, 데이터 수집 비용은 극히 저렴해졌습니다. 자연스레 사람들이 수집하는 데이터의 양은 많아졌습니다. 아파치 스파크는 데이터를..