Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
airflow		airflow
config		config
dbt_files		dbt_files
spark		spark
sql		sql
.gitattributes		.gitattributes
README.md		README.md
requirements.txt		requirements.txt

Repository files navigation

Toys and Models Analytics Engineering Project

Ce projet implémente un pipeline d'analyse de données pour Toys and Models, utilisant Snowflake, PySpark, Airflow, et dbt.

Structure du projet

airflow/: Contient les DAGs et les opérateurs personnalisés pour Airflow
dbt_files/: Contient les modèles dbt pour la transformation des données
spark/: Contient les jobs PySpark pour l'extraction et le chargement des données
sql/: Contient les scripts SQL, y compris le dump de la base de données initiale
config/: Contient les fichiers de configuration pour MySQL et Snowflake

Installation

Clonez ce dépôt
Installez les dépendances : pip install -r requirements.txt
Configurez Airflow, Snowflake, et votre base de données MySQL
Exécutez le script SQL dans sql/Dump202403.sql pour initialiser la base de données MySQL
Configurez les fichiers dans config/ avec vos informations de connexion

Utilisation

Démarrez Airflow et activez le DAG toys_and_models_etl
Les données seront extraites de MySQL, transformées avec PySpark, et chargées dans Snowflake
dbt sera utilisé pour effectuer des transformations supplémentaires dans Snowflake

Contribuer

Les pull requests sont les bienvenues. Pour des changements majeurs, veuillez d'abord ouvrir une issue pour discuter de ce que vous aimeriez changer.

About

No description, website, or topics provided.

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%