GCS Dataflow

Dataflow란

  • Batch 데이터와 stream 데이터를 클라우드상에서 처리할 수 있는 scalable 한 플랫폼.
  • 데이터를 처리 하기 위한 machine 관리가 필요 없는 장점이 있음.
  • Apache Beam Library를 사용. 언어는 Python과 Java를 지원

Dataflow가 필요한 곳

  • 소매 분야의 Clickstream, Point-of-Sale(판매 시점 관리), 분류 분석
  • 금융 서비스 분야의 사기 행위 감지
  • 게임 분야의 맞춤 사용자 환경
  • 제조, 의료, 물류 분야의 IoT 분석

Dataflow 사용 방법

  1. apache beam 라이브러리를 사용하여 dataflow를 정의
  2. 정의된 스크립트, 혹은 바이너리를 실행

댓글

이 블로그의 인기 게시물

[Python] # -*- coding: utf-8 -*-를 쓰는 이유

[소프트웨어공학] NS(Nassi-Schneiderman) 차트

[컴퓨터네트워크] Telnet이란?