데이터 스트리밍은 다양한 데이터 소스에서 일련의 데이터를 취합 및 수집하고 해당 데이터를 실시간으로 처리하여 의미와 인사이트를 추출하는 것을 포함한다.스트리밍 데이터는 일반적으로 빅데이터와 관련해서 쓰이는 용어로, 그 예로는 고객이 생성하는 로그 파일, 전자 상거래 구매, 게임 내 플레이어 활동, 소셜 네트워크의 정보, 주식 거래소, 지리공간 서비스, 연결된 디바이스의 텔레메트리, 데이터 센터의 계측이 있다. 스트리밍 데이터를 처리하기 위한 대표적인 소프트웨어아파치 카프카(Kafka) : 실시간 데이터를 처리하는 오픈소스 분산형 이벤트 스트리밍 플랫폼. 이벤트 기반 애플리케이션을 지원하고 신뢰할 수 있는 데이터 파이프라인을 구축하는 데 탁월하며, 지연 시간이 짧고 처리량이 높은 데이터 전송을 제공한다.