Aplikuj teraz

Data Engineer

RANDLAB SOFTWARE sp. z o.o.

Warszawa
130 zł/godz.
hybrydowa
🐍 Python
Scala
SQL
Hadoop
Hive
Apache Spark
PySpark
🐳 Docker
🚢 Kubernetes
☁️ AWS
Git
🏠 hybrydowa

Wymagania

Technologie wymagane

Python

Scala

SQL

Hadoop

Hive

Apache Spark

PySpark

Docker

Kubernetes

AWS

Git

Technologie mile widziane

Apache Airflow

Apache Kafka

Azure

GCP

MongoDB

Cassandra

Elasticsearch

Terraform

Prometheus

Grafana

Tableau

Microsoft Power BI

Nasze wymagania

  • Co najmniej 3 lata doświadczenia na stanowisku Data Engineer lub pokrewnym (Big Data Developer, ETL Developer).
  • Biegła znajomość Python (w kontekście przetwarzania danych – skrypty ETL, biblioteki Pandas, PySpark) oraz dobra znajomość SQL (złożone zapytania, optymalizacja).
  • Doświadczenie w pracy z technologiami Big Data: praktyczna znajomość ekosystemu Hadoop (HDFS, Hive) i frameworka Spark do obliczeń rozproszonych na dużą skalę.
  • Umiejętność projektowania architektury hurtowni danych i data lake – rozumienie zasad modelowania danych (np. model gwiazdy, partycjonowanie, formaty kolumnowe Parquet/ORC).
  • Znajomość narzędzi orkiestracji procesów i automatyzacji workflow (preferowany Apache Airflow lub podobne).
  • Dobra orientacja w środowisku chmurowym (np. AWS lub Azure) – potrafisz wykorzystać usługi chmurowe do budowy pipeline’ów danych (przechowywanie, przetwarzanie, analityka).
  • Doświadczenie w konteneryzacji i orkiestracji – umiejętność uruchamiania zadań w Dockerze, podstawy Kubernetes (deploy, zarządzanie jobami w klastrze).
  • Znajomość zagadnień optymalizacji zapytań i procesów ETL (analiza planów zapytań, rozpoznawanie wąskich gardeł, skalowanie horyzontalne vs. pionowe).
  • Praktyka w pracy z systemem kontroli wersji Git oraz w tworzeniu współdzielonych repozytoriów kodu (pull requesty, code review w projektach data).
  • Wykształcenie wyższe (informatyka, matematyka, inżynieria danych lub pokrewne).
  • Zdolności analityczne, dokładność i sumienność w pracy z danymi – dbałość o ich jakość i spójność.
  • Umiejętność rozwiązywania złożonych problemów technicznych oraz optymalizacyjnych, kreatywność w znajdowaniu usprawnień.
  • Komunikatywność i umiejętność pracy w zespole – współpraca z innymi inżynierami i interesariuszami biznesowymi.
  • Znajomość języka angielskiego na poziomie umożliwiającym swobodną pracę z dokumentacją techniczną i komunikację (min. B2).

Mile widziane

  • Certyfikaty chmurowe (np. AWS Certified Data Analytics, Azure Data Engineer) lub inne potwierdzające kompetencje w obszarze Big Data.
  • Doświadczenie w przetwarzaniu danych strumieniowych real-time (Apache Kafka, Apache Flink).
  • Znajomość zagadnień Machine Learning od strony inżynierii (przygotowanie danych dla data science, wdrażanie modelu na pipeline).
  • Praktyczne doświadczenie z narzędziami Infrastructure as Code (Terraform, CloudFormation) w kontekście infrastruktury danych.
  • Udział w projektach opartych o metodyki zwinne (Scrum/Kanban) – umiejętność szybkiego dostosowania się do zmiany wymagań i ścisłej współpracy z zespołem produktowym.
  • Poczucie odpowiedzialności za dane – świadomość kwestii bezpieczeństwa, prywatności (RODO) i jakości danych w organizacji.

Twój zakres obowiązków

  • Tworzenie i utrzymanie wydajnych pipeline’ów danych – procesów ETL/ELT do ekstrakcji, przekształcania i ładowania dużych wolumenów danych z różnych źródeł.
  • Projektowanie i implementacja hurtowni danych / data lake – budowa architektury przechowywania danych (HDFS/S3, bazy kolumnowe) zapewniającej skalowalność i bezpieczeństwo.
  • Programowanie rozproszonych zadań przetwarzania danych z użyciem Apache Spark oraz optymalizacja ich działania (tuning jobów, zarządzanie zasobami w klastrze).
  • Integracja danych strumieniowych i czasu rzeczywistego (konfiguracja i obsługa platform typu Kafka oraz przetwarzanie streamów w Spark Streaming lub Flink).
  • Automatyzacja harmonogramu zadań przetwarzania (workflow) za pomocą narzędzi Apache Airflow – definiowanie DAG, monitorowanie wykonania, obsługa błędów.
  • Wdrażanie najlepszych praktyk DataOps: kontrola wersji dla kodu transformacji danych (Git), code review, testy integracyjne pipeline’ów, ciągła integracja i deployment procesów danych.
  • Współpraca z analitykami danych, data scientistami oraz developerami – dostarczanie im odpowiednio przygotowanych i świeżych danych, rozwiązywanie problemów związanych z dostępnością i jakością danych.
  • Dokumentowanie architektury platformy danych, procesów ETL oraz schematów przetwarzania w celu utrzymania wiedzy w zespole.
Wyświetlenia: 6
Opublikowanaokoło miesiąc temu
Wygasaza 17 dni
Tryb pracyhybrydowa
Źródło
Logo

Podobne oferty, które mogą Cię zainteresować

Na podstawie "Data Engineer"