Initial commit

2025-11-03 18:20:12 +01:00
commit 98f6a7b3c0
108 changed files with 987 additions and 0 deletions
--- a/.coverage
+++ b/.coverage
--- a/pycache/main.cpython-312.pyc
+++ b/pycache/main.cpython-312.pyc
--- a/data/sample-lancedb/rag-table.lance/_latest.manifest
+++ b/data/sample-lancedb/rag-table.lance/_latest.manifest
--- a/data/sample-lancedb/rag-table.lance/_transactions/0-8296f8ca-f94c-4570-a66a-d3dfbdac8cba.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/0-8296f8ca-f94c-4570-a66a-d3dfbdac8cba.txn
@ -0,0 +1 @@
 $8296f8ca-f94c-4570-a66a-d3dfbdac8cba<62>{2vector <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>*fixed_size_list:float:38408"content <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>*string08!source <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>*string08
--- a/data/sample-lancedb/rag-table.lance/_transactions/1-41d784f9-21e6-4b14-8d1f-cafce7c09cb7.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/1-41d784f9-21e6-4b14-8d1f-cafce7c09cb7.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/10-47fb13d9-9bce-4bfc-95ed-17e2fc82e823.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/10-47fb13d9-9bce-4bfc-95ed-17e2fc82e823.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/11-b1dbd882-5a16-4809-b588-b066f107cd09.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/11-b1dbd882-5a16-4809-b588-b066f107cd09.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/12-304e8d93-0789-44f2-9fcb-54fad6833db4.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/12-304e8d93-0789-44f2-9fcb-54fad6833db4.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/13-f5e3ddc0-37a1-428c-aecb-44b61c4b5019.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/13-f5e3ddc0-37a1-428c-aecb-44b61c4b5019.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/14-681c366d-6882-42c4-a80a-803af07cb669.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/14-681c366d-6882-42c4-a80a-803af07cb669.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/15-e96db896-8792-466a-a433-e3de32d8fc59.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/15-e96db896-8792-466a-a433-e3de32d8fc59.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/16-bcd68c97-939e-46bb-856c-402f90cae659.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/16-bcd68c97-939e-46bb-856c-402f90cae659.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/17-d5db02c4-92d6-4fb2-912a-c7ea8aeeab42.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/17-d5db02c4-92d6-4fb2-912a-c7ea8aeeab42.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/18-06b0341a-bf2a-4e6a-8a87-0d751482a19c.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/18-06b0341a-bf2a-4e6a-8a87-0d751482a19c.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/19-0c5ebb01-2100-47da-99b0-0e19da41a3ea.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/19-0c5ebb01-2100-47da-99b0-0e19da41a3ea.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/2-d6c54a53-8bfc-40cb-a016-2d79d9d0d426.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/2-d6c54a53-8bfc-40cb-a016-2d79d9d0d426.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/20-181a3af1-47b4-4df7-b5f1-d322d89e664c.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/20-181a3af1-47b4-4df7-b5f1-d322d89e664c.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/21-63fe8d6c-c3f5-4951-b1c2-0b9c8d06ce8d.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/21-63fe8d6c-c3f5-4951-b1c2-0b9c8d06ce8d.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/22-5f4f05d3-419e-4b8a-b9b5-228a533795f6.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/22-5f4f05d3-419e-4b8a-b9b5-228a533795f6.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/3-d89728ee-ce26-42df-8e6d-6194b2c4d755.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/3-d89728ee-ce26-42df-8e6d-6194b2c4d755.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/4-84c16278-326b-4231-8fcb-429a1d29faa4.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/4-84c16278-326b-4231-8fcb-429a1d29faa4.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/5-4d8980cb-81ea-439e-a842-083ab3e2097f.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/5-4d8980cb-81ea-439e-a842-083ab3e2097f.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/6-ed3baef7-951a-44c1-a93b-205fc9c97ea9.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/6-ed3baef7-951a-44c1-a93b-205fc9c97ea9.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/7-bc4c52b5-15aa-422d-a16c-66d1220fbe26.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/7-bc4c52b5-15aa-422d-a16c-66d1220fbe26.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/8-2b6021bf-c449-4dce-afde-74b83013f0ca.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/8-2b6021bf-c449-4dce-afde-74b83013f0ca.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/9-a3692c6d-8d44-443b-aba5-4c6704b101a2.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/9-a3692c6d-8d44-443b-aba5-4c6704b101a2.txn
--- a/data/sample-lancedb/rag-table.lance/_versions/1.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/1.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/10.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/10.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/11.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/11.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/12.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/12.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/13.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/13.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/14.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/14.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/15.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/15.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/16.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/16.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/17.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/17.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/18.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/18.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/19.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/19.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/2.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/2.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/20.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/20.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/21.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/21.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/22.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/22.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/23.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/23.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/3.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/3.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/4.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/4.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/5.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/5.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/6.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/6.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/7.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/7.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/8.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/8.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/9.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/9.manifest
--- a/data/sample-lancedb/rag-table.lance/data/00b0b1bb-3e49-4d56-b7c3-83f2ba18e185.lance
+++ b/data/sample-lancedb/rag-table.lance/data/00b0b1bb-3e49-4d56-b7c3-83f2ba18e185.lance
--- a/data/sample-lancedb/rag-table.lance/data/0542ada5-4974-4fe7-927b-722e39c216d2.lance
+++ b/data/sample-lancedb/rag-table.lance/data/0542ada5-4974-4fe7-927b-722e39c216d2.lance
--- a/data/sample-lancedb/rag-table.lance/data/109f608a-8c6c-4778-9bea-016d0694e049.lance
+++ b/data/sample-lancedb/rag-table.lance/data/109f608a-8c6c-4778-9bea-016d0694e049.lance
--- a/data/sample-lancedb/rag-table.lance/data/12a36624-5e9b-49e5-be55-da7f8dcf6b4e.lance
+++ b/data/sample-lancedb/rag-table.lance/data/12a36624-5e9b-49e5-be55-da7f8dcf6b4e.lance
--- a/data/sample-lancedb/rag-table.lance/data/42bdd03f-992b-4adc-9268-cd30964c0527.lance
+++ b/data/sample-lancedb/rag-table.lance/data/42bdd03f-992b-4adc-9268-cd30964c0527.lance
--- a/data/sample-lancedb/rag-table.lance/data/59964470-be63-4b12-b667-111f8dd00e4b.lance
+++ b/data/sample-lancedb/rag-table.lance/data/59964470-be63-4b12-b667-111f8dd00e4b.lance
--- a/data/sample-lancedb/rag-table.lance/data/6114ee58-342a-4c2a-abf3-b760e38a1f12.lance
+++ b/data/sample-lancedb/rag-table.lance/data/6114ee58-342a-4c2a-abf3-b760e38a1f12.lance
--- a/data/sample-lancedb/rag-table.lance/data/764b1fc9-f400-4806-9105-d18d496fee4e.lance
+++ b/data/sample-lancedb/rag-table.lance/data/764b1fc9-f400-4806-9105-d18d496fee4e.lance
--- a/data/sample-lancedb/rag-table.lance/data/793d0097-eaac-402a-bbbb-481f5d62bd76.lance
+++ b/data/sample-lancedb/rag-table.lance/data/793d0097-eaac-402a-bbbb-481f5d62bd76.lance
--- a/data/sample-lancedb/rag-table.lance/data/890b660c-853c-4eb7-a2a1-d88014384082.lance
+++ b/data/sample-lancedb/rag-table.lance/data/890b660c-853c-4eb7-a2a1-d88014384082.lance
--- a/data/sample-lancedb/rag-table.lance/data/b75b11c0-4de0-4230-9216-6ff2edf2391f.lance
+++ b/data/sample-lancedb/rag-table.lance/data/b75b11c0-4de0-4230-9216-6ff2edf2391f.lance
--- a/data/sample-lancedb/rag-table.lance/data/c02db583-5102-480d-82f6-fc95226bfbfc.lance
+++ b/data/sample-lancedb/rag-table.lance/data/c02db583-5102-480d-82f6-fc95226bfbfc.lance
--- a/data/sample-lancedb/rag-table.lance/data/d840eb58-d3e4-4ad0-9337-2f80918368cb.lance
+++ b/data/sample-lancedb/rag-table.lance/data/d840eb58-d3e4-4ad0-9337-2f80918368cb.lance
--- a/data/sample-lancedb/rag-table.lance/data/d84fbed5-0d87-4e34-bd78-9ee4440e07fa.lance
+++ b/data/sample-lancedb/rag-table.lance/data/d84fbed5-0d87-4e34-bd78-9ee4440e07fa.lance
--- a/data/sample-lancedb/rag-table.lance/data/d93c721f-27b1-420c-bb12-4647e0bce00f.lance
+++ b/data/sample-lancedb/rag-table.lance/data/d93c721f-27b1-420c-bb12-4647e0bce00f.lance
--- a/data/sample-lancedb/rag-table.lance/data/dd80b510-1145-4bb2-99f7-436c679cf7f9.lance
+++ b/data/sample-lancedb/rag-table.lance/data/dd80b510-1145-4bb2-99f7-436c679cf7f9.lance
--- a/data/sample-lancedb/rag-table.lance/data/e80d6b03-f7f5-4e2d-b837-62cb2a674e2b.lance
+++ b/data/sample-lancedb/rag-table.lance/data/e80d6b03-f7f5-4e2d-b837-62cb2a674e2b.lance
--- a/data/sample-lancedb/rag-table.lance/data/e9eeedb1-073a-45a0-a0db-228ab9a0a28f.lance
+++ b/data/sample-lancedb/rag-table.lance/data/e9eeedb1-073a-45a0-a0db-228ab9a0a28f.lance
--- a/data/sample-lancedb/rag-table.lance/data/ec88cc97-a52a-4cf0-8e5b-279586dfe444.lance
+++ b/data/sample-lancedb/rag-table.lance/data/ec88cc97-a52a-4cf0-8e5b-279586dfe444.lance
--- a/data/sample-lancedb/rag-table.lance/data/f0c04908-1a3a-43de-911a-46fcd21eb685.lance
+++ b/data/sample-lancedb/rag-table.lance/data/f0c04908-1a3a-43de-911a-46fcd21eb685.lance
--- a/data/sample-lancedb/rag-table.lance/data/fb307ae5-f5b3-425b-952c-f8543139ab3d.lance
+++ b/data/sample-lancedb/rag-table.lance/data/fb307ae5-f5b3-425b-952c-f8543139ab3d.lance
--- a/data/sample-lancedb/rag-table.lance/data/fca257de-8ed3-49a0-b437-80e7d4655965.lance
+++ b/data/sample-lancedb/rag-table.lance/data/fca257de-8ed3-49a0-b437-80e7d4655965.lance
--- a/data/source/bilan_comptable_2024.pdf
+++ b/data/source/bilan_comptable_2024.pdf
--- a/data/source/database.pdf
+++ b/data/source/database.pdf
--- a/data/source/employes.pdf
+++ b/data/source/employes.pdf
--- a/data/source/facture_14_03_2025.pdf
+++ b/data/source/facture_14_03_2025.pdf
--- a/data/source/fournisseurs.pdf
+++ b/data/source/fournisseurs.pdf
--- a/data/source/historique_commandes.pdf
+++ b/data/source/historique_commandes.pdf
--- a/data/source/planning_production_mars_2025.pdf
+++ b/data/source/planning_production_mars_2025.pdf
--- a/main.py
+++ b/main.py
--- a/requirements.txt
+++ b/requirements.txt
@ -0,0 +1,16 @@
 #executer pip install -r requirements.txt
 numpy<2
 pandas>=2.1.4,<3.0
 scikit-learn
 torch --index-url https://download.pytorch.org/whl/cpu
 transformers
 accelerate>=1.2.1,<2.0.0
 sentence-transformers
 pyarrow==14.0.1
 # Default Dependencies
 pydantic>=2.0.0  # For data validation
 lancedb==0.6.13                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    
 docling==2.31.0
 cohere==5.15.0
--- a/src/init.py
+++ b/src/init.py
--- a/src/pycache/init.cpython-312.pyc
+++ b/src/pycache/init.cpython-312.pyc
--- a/src/impl/init.py
+++ b/src/impl/init.py
--- a/src/impl/pycache/init.cpython-312.pyc
+++ b/src/impl/pycache/init.cpython-312.pyc
--- a/src/impl/pycache/datastore.cpython-312.pyc
+++ b/src/impl/pycache/datastore.cpython-312.pyc
--- a/src/impl/pycache/indexer.cpython-312.pyc
+++ b/src/impl/pycache/indexer.cpython-312.pyc
--- a/src/impl/pycache/response_generator.cpython-312.pyc
+++ b/src/impl/pycache/response_generator.cpython-312.pyc
--- a/src/impl/pycache/retriever.cpython-312.pyc
+++ b/src/impl/pycache/retriever.cpython-312.pyc
--- a/src/impl/datastore.py
+++ b/src/impl/datastore.py
@ -0,0 +1,163 @@
 from typing import List
 from ..interface.base_datastore import BaseDatastore, DataItem
 import lancedb
 from lancedb.table import Table
 from typing import List
 import pyarrow as pa
 from sentence_transformers import SentenceTransformer
 from sklearn.metrics.pairwise import cosine_similarity
 import numpy as np
 # from concurrent.futures import ThreadPoolExecutor
 class Datastore(BaseDatastore):
    DB_PATH = "data/sample-lancedb"
    DB_TABLE_NAME = "rag-table"
    def __init__(self):
        """Constructeur par défaut, initialise les dimensions des vecteurs pour l'embedding
        (actuellement 384 par défaut pour le modèle all-MiniLm-L6-v2), charge le modèle SentenceTransformer,
        connecte la base de données et récupère la table.
        #Model's maximum sequence length = 256
        """
        self.vector_dimensions = 384 # all-MiniLm-L6-v2 a une dimension fixe de 384
        self.model = SentenceTransformer("all-MiniLM-L6-v2")
        self.vector_db = lancedb.connect(self.DB_PATH)
        self.table: Table = self._get_table()
    def reset_table(self) -> Table:
        """Drop la table si elle existe puis crée une table selon le schéma
        vector (liste de float32 de dimension définie dans la classe), content et source
        et l'ouvre.
        Returns:
            Table: La table crée
        """
        try:
            self.vector_db.drop_table(self.DB_TABLE_NAME)
        except Exception as e:
            print("Unable to drop the table, assuming it does not exist.")
        schema = pa.schema(
            [
                pa.field("vector", pa.list_(pa.float32(),self.vector_dimensions)),
                pa.field("content", pa.utf8()),
                pa.field("source", pa.utf8()),
            ]
        )
        self.table = self.vector_db.create_table(self.DB_TABLE_NAME, schema = schema)
        #self.table = self.vector_db.open_table(self.DB_TABLE_NAME)
        print(f"Table was reset/created: {self.DB_TABLE_NAME} in {self.DB_PATH}")
        return self.table
    def _get_table(self) -> Table:
        """Ouvre la table ou la reset en cas d'échec
        Returns:
            Table: la table ouverte
        """
        try:
            return self.vector_db.open_table(self.DB_TABLE_NAME)
        except Exception as e:
            print(f"Error opening the table {e}. Trying to reset it.")
            return self.reset_table()
    def add_items(self, items: List[DataItem]) -> None:
        """Ajoute les items en entrées dans le dataset (nécessite un embedding)
        opération network bound donc à paralléliser
        Args:
            items (List[DataItem]): Liste de DataItems à ajouter 
        Returns:
            _type_: _description_
        """
        if not items:
            return
        contents = [item.content for item in items]
        sources = [item.source for item in items]
        "embedding du contenu de chaque entrée par batch de 32"
        print(f"Génération des embeddings pour {len(items)} items...")
        vectors = self.model.encode(
            contents,
            batch_size= 32,
        )
        "conversion en dictionnaires pour stocker les documents dans la BDD"
        entries = [
            {
                "vector": vector,
                "content": content,
                "source": source
            }
            for vector, content, source in zip(vectors, contents, sources)
        ]
        #self.table.merge_insert("source").when_matched_update_all().when_not_matched_insert_all().execute(entries)
        self.table.add(entries)
        print(f"{len(entries)} items ajoutés")
    #deprecated
    def _convert_items_to_entry(self, item: DataItem) -> dict:
        """Convertir un DataItem en dictionnaire correspondant au schéma du Datastore
        Args:
            item (DataItem): item à convertir
        Returns:
            dict: Dictionnaire contenant le vecteur, le contenu et la source 
        """
        vector = self.create_vector(item.content)
        return{
            "vector": vector,
            "content": item.content,
            "source": item.source,
        }
    def create_vector(self, content: str) -> List[float]:
        """Utilise le modèle d'embedding pour convertir le str en vecteur (list[float]) 
        Args:
            content (str): contenu de l'entrée à vectoriser
        Returns:
            List[float]: vecteur renvoyé
        """
        response = self.model.encode(content)
        return response.tolist()
    def search_datastore(self, query: str, top_k: int = 5) -> List[str]:
        """Embedde la query et lance une recherche
        Args:
            query (str): requête
            top_k (int, optional): Nombre de documents à retourner au maximum. Defaults to 5.
        Returns:
            List[str]: Tableau contenant le contenu des documents retrouvés
        """                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             
        vector = self.model.encode(query)
        results = (
            self.table
            .search(vector, vector_column_name="vector")
            .select(["content", "source"])
            .limit(top_k)
            .to_list()
        )
        result_content = [
            result["content"] 
            for result in results 
            if "content" in result and result["content"] is not None]
        return result_content
--- a/src/impl/evaluator.py
+++ b/src/impl/evaluator.py
@ -0,0 +1,45 @@
 from ..interface.base_evaluator import EvaluationResult, BaseEvaluator
 import requests
 class Evaluator(BaseEvaluator):
    def __init__(self, model_name: str = "llama3.2:3b", base_url: str = "http://localhost:11434"):
        self.base_url = base_url
        self.model_name = model_name
    SYSTEM_PROMPT = """
 You are a system that evaluates the correctness of a response to a question.
 The question will be provided in <question>...</question> tags.
 The response will be provided in <response>...</response> tags.
 The expected answer will be provided in <expected_answer>...</expected_answer> tags.
 The response doesn't have to exactly match all the words/context the expected answer. It just needs to be right about
 the answer to the actual question itself.
 Evaluate whether the response is correct or not, and return your reasoning in <reasoning>...</reasoning> tags.
 Then return the result in <result>...</result> tags — either as 'true' or 'false'.
 """
    def evaluate(self, query: str, response: str, expected_answer: str) -> EvaluationResult:
        user_prompt = f"""
        <questions> \n{query} </question>
        <response> \n{response} </response>
        <expected_answer> \n{expected_answer} </expected_answer>
        """
        response_content = requests.post(
            f"{self.base_url}/api/generate",
            json={
                "model": self.model_name,
                "prompt": user_prompt,
                "stream": False,
                "options": {
                    "temperature": 0.7,
                    "top_p": 0.9,
                }
            }
        return super().evaluate(query, response, expected_answer)
--- a/src/impl/indexer.py
+++ b/src/impl/indexer.py
@ -0,0 +1,101 @@
 from typing import List
 from src.interface.base_datastore import DataItem
 from src.interface.base_indexer import BaseIndexer
 from docling.document_converter import DocumentConverter 
 from docling_core.transforms.chunker.hybrid_chunker import HybridChunker
 import os
 from docling_core.transforms.chunker.tokenizer.huggingface import HuggingFaceTokenizer
 from transformers import AutoTokenizer
 from langchain_text_splitters import RecursiveCharacterTextSplitter
 # pip install langchain langchain-text-splitters
 EMBED_MODEL_ID = "sentence-transformers/all-MiniLM-L6-v2"
 MAX_TOKENS = 256  # set to a small number for illustrative purposes
 #précedemment 512
 class Indexer(BaseIndexer):
    def __init__(self):
        self.converter = DocumentConverter()
        self.tokenizer = HuggingFaceTokenizer(
            tokenizer = AutoTokenizer.from_pretrained(EMBED_MODEL_ID),
            max_tokens = MAX_TOKENS,  # optional, by default derived from `tokenizer` for HF case
        )
        self.chunker = HybridChunker(
            tokenizer = self.tokenizer,
            max_tokens = MAX_TOKENS,
            #merge_peers = True,
            #handle_tables = "separate",
            #handle_pictures = "separate"
        )
        """self.text_splitter = RecursiveCharacterTextSplitter.from_huggingface_tokenizer(
            tokenizer = self.tokenizer,
            chunk_size = MAX_TOKENS,
            chunk_overlap = MAX_TOKENS // 10,
            separators=["\n\n", "\n", ". ", " ", ""],
        )"""
    def index(self, document_paths: List[str]) -> List[DataItem]:
        """Convertit les documents en format docling puis les découpe en morceaux.
        Les morceaux sont ensuite convertis sous forme de DataItem en y ajoutant des métadonnées
        Args:
            document_paths (List[str]): Liste des documents à indexer
        Returns:
            List[DataItem]: Liste des DataItems indexés 
        """
        items = []
        for document_path in document_paths:
            try:
                document = self.converter.convert(document_path).document
                chunks = list(self.chunker.chunk(document))
                #chunks = self.text_splitter.split_text(document)
                item = self._convert_to_DataItem(chunks, document_path)
                items.extend(item)
            except Exception as e:
                print(f"Erreur lors du traitement de {document_path}: {e}")
                continue
        return items
    def _convert_to_DataItem(self, chunks, document_path: str) -> List[DataItem]:
        """Crée une liste de DataItems en ajoutant les éventuels headers au début du contenu 
        et en récupérant la source à l'aide du module os
        Args:
            chunks : liste de chunks de documents à traiter
            document_path: chemin vers le document, permet d'utiliser os pour récupérer directement le nom
        Returns:
            Lits[DataItem]: liste de DataItem contenant les métadonnées et séparant le contenu et la source
        """
        items = []
        for i, chunk in enumerate(chunks):
            try:
                headings = ""
                if(hasattr(chunk, 'meta') and hasattr(chunk.meta, 'headings') and chunk.meta.headings):
                    headings = "## " + ", ".join(chunk.meta.headings) + "\n"
                text = chunk.text if(hasattr(chunk, 'text')) else str(chunk)
                content = f"{headings}{text}"
                filename = os.path.basename(document_path)
                source = f"{filename}:chunk {i}"
                item = DataItem(content = content, source = source)
                items.append(item)
            except Exception as e:
                print(f" Erreur sur le chunk {i}: {e}")
                continue
        return items
--- a/src/impl/response_generator.py
+++ b/src/impl/response_generator.py
@ -0,0 +1,83 @@
 from typing import List
 from ..interface.base_response_generator import BaseResponseGenerator
 import requests
 import json
 SYSTEM_PROMPT = """Tu es un assistant intelligent qui répond aux questions en te basant sur le contexte fourni.
 Règles importantes:
 - Réponds UNIQUEMENT en te basant sur les informations du contexte
 - Si l'information n'est pas dans le contexte, dis clairement "Je ne trouve pas cette information dans les documents fournis"
 - Cite les sources quand c'est pertinent
 - Réponds en français de manière claire et concise
 - Ne réponds pas avec "Selon le document" mais donne directement l'information"""
 class ResponseGenerator(BaseResponseGenerator):
    def __init__(self, model_name: str = "llama3.2:3b", base_url: str = "http://localhost:11434"):
        self.model_name = model_name
        self.base_url = base_url
    def generate_response(self, query: str, context: List[str]) -> str:
        """Génère une réponse basée sur la requête et le contexte."""
        # Formater le contexte
        formatted_context = "\n\n".join([f"Document {i+1}:\n{doc}" for i, doc in enumerate(context)])
        # Créer le prompt
        prompt =f"""Instructions: {SYSTEM_PROMPT}
                    Contexte: {formatted_context}
                    Question: {query}
                    Réponse:"""
        # Appeler Ollama via l'API
        try:
            response = requests.post(
                f"{self.base_url}/api/generate",
                json={
                    "model": self.model_name,
                    "prompt": prompt,
                    "stream": False,
                    "options": {
                        "temperature": 0.7,
                        "top_p": 0.9,
                    }
                }
            )
            # Vérifier le statut de la réponse
            response.raise_for_status()
            # Parser le JSON
            result = response.json()
            # DEBUG: Afficher la structure de la réponse
            print(f"DEBUG - Structure de la réponse: {result.keys()}")
            # Vérifier les différentes clés possibles
            if "response" in result:
                return result["response"]
            elif "message" in result:
                return result["message"]
            elif "content" in result:
                return result["content"]
            else:
                # Si aucune clé attendue n'est trouvée
                print(f"DEBUG - Réponse complète: {result}")
                return f"Erreur: Format de réponse inattendu. Clés disponibles: {list(result.keys())}"
        except requests.exceptions.ConnectionError:
            return "❌ Impossible de se connecter au serveur Ollama. Vérifiez qu'Ollama est en cours d'exécution avec: ollama serve"
        except requests.exceptions.Timeout:
            return "⚠️ La génération a pris trop de temps. Essayez avec un modèle plus petit."
        except requests.exceptions.HTTPError as e:
            return f"❌ Erreur HTTP {response.status_code}: {e}"
        except Exception as e:
            return f"❌ Erreur lors de la génération: {str(e)}"
--- a/src/impl/retriever.py
+++ b/src/impl/retriever.py
@ -0,0 +1,43 @@
 from typing import List
 from ..interface.base_retriever import BaseRetriever
 from ..interface.base_datastore import BaseDatastore
 from sentence_transformers import CrossEncoder
 import numpy as np
 class Retriever(BaseRetriever):
    def __init__(self, datastore: BaseDatastore):
        self.datastore = datastore
        self.model = CrossEncoder('cross-encoder/ms-marco-MiniLM-L-6-v2')
    def search_retriever(self, query: str, top_k: int = 5) -> List[str]:
        """Cherche dans le datastore et classe les résultats par recherche sémantique
        Args:
            query (str): Requête
            top_k (int, optional): Nombre de résultats à retourner. Defaults to 5.
        Returns:
            List[str]: Liste de content de docs classée
        """
        search_results = self.datastore.search_datastore(query, top_k = top_k *5)
        reranked_results = self._rerank(query, search_results, top_k)
        return reranked_results
    def _rerank(self, query: str, search_results: List[str], top_k: int=10) -> List[str]:
        """Rerank le contenu des documents en fonction de la similarité avec la query
        Args:
            query (str): requête
            search_results (List[str]): liste de documents retrieved
            top_k (int, optional): Nombre de documents à retourner. Defaults to 10.
        Returns:
            List[str]: Liste de documents classée
        """
        pairs =[[query, doc]for doc in search_results]
        scores = self.model.predict(pairs)
        ranked_indices = np.argsort(scores)[::-1]
        results = [search_results[idx] for idx in ranked_indices[:top_k]]
        return results
--- a/src/interface/init.py
+++ b/src/interface/init.py
--- a/src/interface/pycache/init.cpython-312.pyc
+++ b/src/interface/pycache/init.cpython-312.pyc
--- a/src/interface/pycache/base_datastore.cpython-312.pyc
+++ b/src/interface/pycache/base_datastore.cpython-312.pyc
--- a/src/interface/pycache/base_indexer.cpython-312.pyc
+++ b/src/interface/pycache/base_indexer.cpython-312.pyc
--- a/src/interface/pycache/base_response_generator.cpython-312.pyc
+++ b/src/interface/pycache/base_response_generator.cpython-312.pyc
--- a/src/interface/pycache/base_retriever.cpython-312.pyc
+++ b/src/interface/pycache/base_retriever.cpython-312.pyc
--- a/src/interface/base_datastore.py
+++ b/src/interface/base_datastore.py
@ -0,0 +1,22 @@
 from abc import ABC,abstractmethod
 from typing import List
 from pydantic import BaseModel
 class DataItem(BaseModel):
    content: str = ""
    source: str = ""
 class BaseDatastore(ABC):
    @abstractmethod
    def add_items(self, items: List[DataItem]) -> None:
        pass
    @abstractmethod
    def create_vector(self, content: str) -> List[float]:
        pass
    @abstractmethod
    def search_datastore(self, query: str, top_k: int=5) -> List[str]:
        pass
--- a/Show More
+++ b/Show More
		`@ -0,0 +1 @@`
							`$8296f8ca-f94c-4570-a66a-d3dfbdac8cba<62>{2vector <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>fixed_size_list:float:38408"content <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>string08!source <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>*string08`