Skip to content

Conversation

@MNIKIEMA
Copy link
Collaborator

Refactorisation de la structure + ajout du clustering

  • Ajout d’une structure src/ pour standardiser les imports Python.
  • Centralisation des données générées dans data/archive_data/ afin de séparer clairement données anciennes et nouvelles.
  • Maintien de la compatibilité avec les tests existants, adaptés à la nouvelle organisation. (pas testé parce que ce n'est plus utilisé pour l'instant)

Nouvelle organisation

.
├── cluster.png
├── data
│   ├── archive_data
│   ├── conclusions&pollitiques_gold.jsonl
│   ├── conclusions&pollitiques_synthetiques_diversifies.jsonl
│   └── conclusions&pollitiques_synthetiques.jsonl
├── pyproject.toml
├── README.md
├── src
│   ├── dspy_policies_extraction
│   ├── notebooks
│   └── policy_analysis
├── tests
│   ├── test_agents.py
│   ├── test_import.py
│   ├── test_ingestion_pipeline.py
│   ├── test_merge_policies.py
│   └── test_pdf
└── uv.lock

Impact

  • Aucun changement fonctionnel majeur attendu.
  • Amélioration de la lisibilité, de la modularité comme le package library

@MNIKIEMA MNIKIEMA requested a review from fraboniface December 17, 2025 15:32
@fraboniface
Copy link
Collaborator

Merci @MNIKIEMA ! Ce serait effectivement mieux. Dans library j'ai bien séparé la partie librairie python contenant des fonctions utiles (dans src) des scripts et notebooks utilisant ces fonctions (dans prescreening et maintenant dans scraping. Si cela ne demande pas trop de refactoring, pourrais-tu également faire cette distinction ?

@MNIKIEMA
Copy link
Collaborator Author

MNIKIEMA commented Jan 5, 2026

Le code respecte déjà la structure. Il a deux dossiers qui ne sont pas importables et j'ai gardé dans src pour une question de lisibilité. C'est notamment dspy_policies_extraction and notebook.

@fraboniface
Copy link
Collaborator

Pour moi ce n'est pas tout à fait pareil : ma suggestion était justement de sortir de src ces deux dossiers pour que src ne contienne que des fonctions importables, comme une vraie librairie (et encore il faudrait aussi sortir le main de agentic_data_policies__extraction).

@MNIKIEMA
Copy link
Collaborator Author

MNIKIEMA commented Jan 5, 2026

Ça peut se faire aussi. La structure actuelle du pyproject.toml exclut ces fichiers normalement src/policy_analysis.

Copy link
Collaborator

@fraboniface fraboniface left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Merci ! Ça mixe encore un peu trop scripts et code fonctionnel à mon goût mais pas très grave à ce stade. Il y a juste un lien cassé dans le README dont je peux me charger.

```

[Voir ici pour plus d'infos](dspy_policies_extraction/README.md)
[Voir ici pour plus d'infos](src/dspy_policies_extraction/README.md)
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Mauvais lien, retirer le src

@dataforgoodfr dataforgoodfr deleted a comment from Copilot AI Jan 7, 2026
@fraboniface fraboniface merged commit 1ec23ac into main Jan 7, 2026
1 check failed
@fraboniface fraboniface deleted the feat/clustering-mn branch January 20, 2026 09:40
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

3 participants