Initial commit

2025-11-03 18:20:12 +01:00
commit 98f6a7b3c0
108 changed files with 987 additions and 0 deletions
--- a/.coverage
+++ b/.coverage
--- a/pycache/main.cpython-312.pyc
+++ b/pycache/main.cpython-312.pyc
--- a/data/sample-lancedb/rag-table.lance/_latest.manifest
+++ b/data/sample-lancedb/rag-table.lance/_latest.manifest
--- a/data/sample-lancedb/rag-table.lance/_transactions/0-8296f8ca-f94c-4570-a66a-d3dfbdac8cba.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/0-8296f8ca-f94c-4570-a66a-d3dfbdac8cba.txn
@ -0,0 +1 @@
+$8296f8ca-f94c-4570-a66a-d3dfbdac8cba<62>{2vector <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>*fixed_size_list:float:38408"content <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>*string08!source <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>*string08
--- a/data/sample-lancedb/rag-table.lance/_transactions/1-41d784f9-21e6-4b14-8d1f-cafce7c09cb7.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/1-41d784f9-21e6-4b14-8d1f-cafce7c09cb7.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/10-47fb13d9-9bce-4bfc-95ed-17e2fc82e823.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/10-47fb13d9-9bce-4bfc-95ed-17e2fc82e823.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/11-b1dbd882-5a16-4809-b588-b066f107cd09.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/11-b1dbd882-5a16-4809-b588-b066f107cd09.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/12-304e8d93-0789-44f2-9fcb-54fad6833db4.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/12-304e8d93-0789-44f2-9fcb-54fad6833db4.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/13-f5e3ddc0-37a1-428c-aecb-44b61c4b5019.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/13-f5e3ddc0-37a1-428c-aecb-44b61c4b5019.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/14-681c366d-6882-42c4-a80a-803af07cb669.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/14-681c366d-6882-42c4-a80a-803af07cb669.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/15-e96db896-8792-466a-a433-e3de32d8fc59.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/15-e96db896-8792-466a-a433-e3de32d8fc59.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/16-bcd68c97-939e-46bb-856c-402f90cae659.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/16-bcd68c97-939e-46bb-856c-402f90cae659.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/17-d5db02c4-92d6-4fb2-912a-c7ea8aeeab42.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/17-d5db02c4-92d6-4fb2-912a-c7ea8aeeab42.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/18-06b0341a-bf2a-4e6a-8a87-0d751482a19c.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/18-06b0341a-bf2a-4e6a-8a87-0d751482a19c.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/19-0c5ebb01-2100-47da-99b0-0e19da41a3ea.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/19-0c5ebb01-2100-47da-99b0-0e19da41a3ea.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/2-d6c54a53-8bfc-40cb-a016-2d79d9d0d426.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/2-d6c54a53-8bfc-40cb-a016-2d79d9d0d426.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/20-181a3af1-47b4-4df7-b5f1-d322d89e664c.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/20-181a3af1-47b4-4df7-b5f1-d322d89e664c.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/21-63fe8d6c-c3f5-4951-b1c2-0b9c8d06ce8d.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/21-63fe8d6c-c3f5-4951-b1c2-0b9c8d06ce8d.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/22-5f4f05d3-419e-4b8a-b9b5-228a533795f6.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/22-5f4f05d3-419e-4b8a-b9b5-228a533795f6.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/3-d89728ee-ce26-42df-8e6d-6194b2c4d755.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/3-d89728ee-ce26-42df-8e6d-6194b2c4d755.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/4-84c16278-326b-4231-8fcb-429a1d29faa4.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/4-84c16278-326b-4231-8fcb-429a1d29faa4.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/5-4d8980cb-81ea-439e-a842-083ab3e2097f.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/5-4d8980cb-81ea-439e-a842-083ab3e2097f.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/6-ed3baef7-951a-44c1-a93b-205fc9c97ea9.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/6-ed3baef7-951a-44c1-a93b-205fc9c97ea9.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/7-bc4c52b5-15aa-422d-a16c-66d1220fbe26.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/7-bc4c52b5-15aa-422d-a16c-66d1220fbe26.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/8-2b6021bf-c449-4dce-afde-74b83013f0ca.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/8-2b6021bf-c449-4dce-afde-74b83013f0ca.txn
--- a/data/sample-lancedb/rag-table.lance/_transactions/9-a3692c6d-8d44-443b-aba5-4c6704b101a2.txn
+++ b/data/sample-lancedb/rag-table.lance/_transactions/9-a3692c6d-8d44-443b-aba5-4c6704b101a2.txn
--- a/data/sample-lancedb/rag-table.lance/_versions/1.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/1.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/10.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/10.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/11.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/11.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/12.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/12.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/13.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/13.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/14.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/14.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/15.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/15.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/16.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/16.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/17.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/17.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/18.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/18.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/19.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/19.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/2.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/2.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/20.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/20.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/21.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/21.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/22.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/22.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/23.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/23.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/3.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/3.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/4.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/4.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/5.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/5.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/6.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/6.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/7.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/7.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/8.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/8.manifest
--- a/data/sample-lancedb/rag-table.lance/_versions/9.manifest
+++ b/data/sample-lancedb/rag-table.lance/_versions/9.manifest
--- a/data/sample-lancedb/rag-table.lance/data/00b0b1bb-3e49-4d56-b7c3-83f2ba18e185.lance
+++ b/data/sample-lancedb/rag-table.lance/data/00b0b1bb-3e49-4d56-b7c3-83f2ba18e185.lance
--- a/data/sample-lancedb/rag-table.lance/data/0542ada5-4974-4fe7-927b-722e39c216d2.lance
+++ b/data/sample-lancedb/rag-table.lance/data/0542ada5-4974-4fe7-927b-722e39c216d2.lance
--- a/data/sample-lancedb/rag-table.lance/data/109f608a-8c6c-4778-9bea-016d0694e049.lance
+++ b/data/sample-lancedb/rag-table.lance/data/109f608a-8c6c-4778-9bea-016d0694e049.lance
--- a/data/sample-lancedb/rag-table.lance/data/12a36624-5e9b-49e5-be55-da7f8dcf6b4e.lance
+++ b/data/sample-lancedb/rag-table.lance/data/12a36624-5e9b-49e5-be55-da7f8dcf6b4e.lance
--- a/data/sample-lancedb/rag-table.lance/data/42bdd03f-992b-4adc-9268-cd30964c0527.lance
+++ b/data/sample-lancedb/rag-table.lance/data/42bdd03f-992b-4adc-9268-cd30964c0527.lance
--- a/data/sample-lancedb/rag-table.lance/data/59964470-be63-4b12-b667-111f8dd00e4b.lance
+++ b/data/sample-lancedb/rag-table.lance/data/59964470-be63-4b12-b667-111f8dd00e4b.lance
--- a/data/sample-lancedb/rag-table.lance/data/6114ee58-342a-4c2a-abf3-b760e38a1f12.lance
+++ b/data/sample-lancedb/rag-table.lance/data/6114ee58-342a-4c2a-abf3-b760e38a1f12.lance
--- a/data/sample-lancedb/rag-table.lance/data/764b1fc9-f400-4806-9105-d18d496fee4e.lance
+++ b/data/sample-lancedb/rag-table.lance/data/764b1fc9-f400-4806-9105-d18d496fee4e.lance
--- a/data/sample-lancedb/rag-table.lance/data/793d0097-eaac-402a-bbbb-481f5d62bd76.lance
+++ b/data/sample-lancedb/rag-table.lance/data/793d0097-eaac-402a-bbbb-481f5d62bd76.lance
--- a/data/sample-lancedb/rag-table.lance/data/890b660c-853c-4eb7-a2a1-d88014384082.lance
+++ b/data/sample-lancedb/rag-table.lance/data/890b660c-853c-4eb7-a2a1-d88014384082.lance
--- a/data/sample-lancedb/rag-table.lance/data/b75b11c0-4de0-4230-9216-6ff2edf2391f.lance
+++ b/data/sample-lancedb/rag-table.lance/data/b75b11c0-4de0-4230-9216-6ff2edf2391f.lance
--- a/data/sample-lancedb/rag-table.lance/data/c02db583-5102-480d-82f6-fc95226bfbfc.lance
+++ b/data/sample-lancedb/rag-table.lance/data/c02db583-5102-480d-82f6-fc95226bfbfc.lance
--- a/data/sample-lancedb/rag-table.lance/data/d840eb58-d3e4-4ad0-9337-2f80918368cb.lance
+++ b/data/sample-lancedb/rag-table.lance/data/d840eb58-d3e4-4ad0-9337-2f80918368cb.lance
--- a/data/sample-lancedb/rag-table.lance/data/d84fbed5-0d87-4e34-bd78-9ee4440e07fa.lance
+++ b/data/sample-lancedb/rag-table.lance/data/d84fbed5-0d87-4e34-bd78-9ee4440e07fa.lance
--- a/data/sample-lancedb/rag-table.lance/data/d93c721f-27b1-420c-bb12-4647e0bce00f.lance
+++ b/data/sample-lancedb/rag-table.lance/data/d93c721f-27b1-420c-bb12-4647e0bce00f.lance
--- a/data/sample-lancedb/rag-table.lance/data/dd80b510-1145-4bb2-99f7-436c679cf7f9.lance
+++ b/data/sample-lancedb/rag-table.lance/data/dd80b510-1145-4bb2-99f7-436c679cf7f9.lance
--- a/data/sample-lancedb/rag-table.lance/data/e80d6b03-f7f5-4e2d-b837-62cb2a674e2b.lance
+++ b/data/sample-lancedb/rag-table.lance/data/e80d6b03-f7f5-4e2d-b837-62cb2a674e2b.lance
--- a/data/sample-lancedb/rag-table.lance/data/e9eeedb1-073a-45a0-a0db-228ab9a0a28f.lance
+++ b/data/sample-lancedb/rag-table.lance/data/e9eeedb1-073a-45a0-a0db-228ab9a0a28f.lance
--- a/data/sample-lancedb/rag-table.lance/data/ec88cc97-a52a-4cf0-8e5b-279586dfe444.lance
+++ b/data/sample-lancedb/rag-table.lance/data/ec88cc97-a52a-4cf0-8e5b-279586dfe444.lance
--- a/data/sample-lancedb/rag-table.lance/data/f0c04908-1a3a-43de-911a-46fcd21eb685.lance
+++ b/data/sample-lancedb/rag-table.lance/data/f0c04908-1a3a-43de-911a-46fcd21eb685.lance
--- a/data/sample-lancedb/rag-table.lance/data/fb307ae5-f5b3-425b-952c-f8543139ab3d.lance
+++ b/data/sample-lancedb/rag-table.lance/data/fb307ae5-f5b3-425b-952c-f8543139ab3d.lance
--- a/data/sample-lancedb/rag-table.lance/data/fca257de-8ed3-49a0-b437-80e7d4655965.lance
+++ b/data/sample-lancedb/rag-table.lance/data/fca257de-8ed3-49a0-b437-80e7d4655965.lance
--- a/data/source/bilan_comptable_2024.pdf
+++ b/data/source/bilan_comptable_2024.pdf
--- a/data/source/database.pdf
+++ b/data/source/database.pdf
--- a/data/source/employes.pdf
+++ b/data/source/employes.pdf
--- a/data/source/facture_14_03_2025.pdf
+++ b/data/source/facture_14_03_2025.pdf
--- a/data/source/fournisseurs.pdf
+++ b/data/source/fournisseurs.pdf
--- a/data/source/historique_commandes.pdf
+++ b/data/source/historique_commandes.pdf
--- a/data/source/planning_production_mars_2025.pdf
+++ b/data/source/planning_production_mars_2025.pdf
--- a/main.py
+++ b/main.py
--- a/requirements.txt
+++ b/requirements.txt
@ -0,0 +1,16 @@
+#executer pip install -r requirements.txt
+numpy<2
+pandas>=2.1.4,<3.0
+scikit-learn
+torch --index-url https://download.pytorch.org/whl/cpu
+transformers
+accelerate>=1.2.1,<2.0.0
+sentence-transformers
+pyarrow==14.0.1
+
+# Default Dependencies
+pydantic>=2.0.0  # For data validation
+lancedb==0.6.13                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    
+docling==2.31.0
+cohere==5.15.0
+
--- a/src/init.py
+++ b/src/init.py
--- a/src/pycache/init.cpython-312.pyc
+++ b/src/pycache/init.cpython-312.pyc
--- a/src/impl/init.py
+++ b/src/impl/init.py
--- a/src/impl/pycache/init.cpython-312.pyc
+++ b/src/impl/pycache/init.cpython-312.pyc
--- a/src/impl/pycache/datastore.cpython-312.pyc
+++ b/src/impl/pycache/datastore.cpython-312.pyc
--- a/src/impl/pycache/indexer.cpython-312.pyc
+++ b/src/impl/pycache/indexer.cpython-312.pyc
--- a/src/impl/pycache/response_generator.cpython-312.pyc
+++ b/src/impl/pycache/response_generator.cpython-312.pyc
--- a/src/impl/pycache/retriever.cpython-312.pyc
+++ b/src/impl/pycache/retriever.cpython-312.pyc
--- a/src/impl/datastore.py
+++ b/src/impl/datastore.py
@ -0,0 +1,163 @@
+from typing import List
+from ..interface.base_datastore import BaseDatastore, DataItem
+import lancedb
+from lancedb.table import Table
+from typing import List
+import pyarrow as pa
+from sentence_transformers import SentenceTransformer
+from sklearn.metrics.pairwise import cosine_similarity
+import numpy as np
+# from concurrent.futures import ThreadPoolExecutor
+
+
+class Datastore(BaseDatastore):
+    
+    DB_PATH = "data/sample-lancedb"
+    DB_TABLE_NAME = "rag-table"
+    
+    def __init__(self):
+        """Constructeur par défaut, initialise les dimensions des vecteurs pour l'embedding
+        (actuellement 384 par défaut pour le modèle all-MiniLm-L6-v2), charge le modèle SentenceTransformer,
+        connecte la base de données et récupère la table.
+        #Model's maximum sequence length = 256
+        """
+        self.vector_dimensions = 384 # all-MiniLm-L6-v2 a une dimension fixe de 384
+        self.model = SentenceTransformer("all-MiniLM-L6-v2")
+        self.vector_db = lancedb.connect(self.DB_PATH)
+        self.table: Table = self._get_table()
+        
+        
+    
+    def reset_table(self) -> Table:
+        """Drop la table si elle existe puis crée une table selon le schéma
+        vector (liste de float32 de dimension définie dans la classe), content et source
+        et l'ouvre.
+        
+        Returns:
+            Table: La table crée
+        """
+        try:
+            self.vector_db.drop_table(self.DB_TABLE_NAME)
+        except Exception as e:
+            print("Unable to drop the table, assuming it does not exist.")
+        
+        schema = pa.schema(
+            [
+                pa.field("vector", pa.list_(pa.float32(),self.vector_dimensions)),
+                pa.field("content", pa.utf8()),
+                pa.field("source", pa.utf8()),
+            ]
+        )
+        
+        self.table = self.vector_db.create_table(self.DB_TABLE_NAME, schema = schema)
+        #self.table = self.vector_db.open_table(self.DB_TABLE_NAME)
+        print(f"Table was reset/created: {self.DB_TABLE_NAME} in {self.DB_PATH}")
+        return self.table
+            
+        
+    def _get_table(self) -> Table:
+        """Ouvre la table ou la reset en cas d'échec
+
+        Returns:
+            Table: la table ouverte
+        """
+        try:
+            return self.vector_db.open_table(self.DB_TABLE_NAME)
+        except Exception as e:
+            print(f"Error opening the table {e}. Trying to reset it.")
+            return self.reset_table()
+    
+    def add_items(self, items: List[DataItem]) -> None:
+        """Ajoute les items en entrées dans le dataset (nécessite un embedding)
+        opération network bound donc à paralléliser
+        Args:
+            items (List[DataItem]): Liste de DataItems à ajouter 
+
+        Returns:
+            _type_: _description_
+        """
+        if not items:
+            return
+        
+        contents = [item.content for item in items]
+        sources = [item.source for item in items]
+        
+        "embedding du contenu de chaque entrée par batch de 32"
+        print(f"Génération des embeddings pour {len(items)} items...")
+        vectors = self.model.encode(
+            contents,
+            batch_size= 32,
+        )
+        
+        "conversion en dictionnaires pour stocker les documents dans la BDD"
+        entries = [
+            {
+                "vector": vector,
+                "content": content,
+                "source": source
+            }
+            for vector, content, source in zip(vectors, contents, sources)
+        ]
+        
+        #self.table.merge_insert("source").when_matched_update_all().when_not_matched_insert_all().execute(entries)
+        self.table.add(entries)
+        print(f"{len(entries)} items ajoutés")
+        
+    #deprecated
+    def _convert_items_to_entry(self, item: DataItem) -> dict:
+        """Convertir un DataItem en dictionnaire correspondant au schéma du Datastore
+
+        Args:
+            item (DataItem): item à convertir
+
+        Returns:
+            dict: Dictionnaire contenant le vecteur, le contenu et la source 
+        """
+        
+        vector = self.create_vector(item.content)
+        
+        return{
+            "vector": vector,
+            "content": item.content,
+            "source": item.source,
+        }
+        
+    def create_vector(self, content: str) -> List[float]:
+        """Utilise le modèle d'embedding pour convertir le str en vecteur (list[float]) 
+
+        Args:
+            content (str): contenu de l'entrée à vectoriser
+
+        Returns:
+            List[float]: vecteur renvoyé
+        """
+        response = self.model.encode(content)
+        return response.tolist()
+    
+    def search_datastore(self, query: str, top_k: int = 5) -> List[str]:
+        """Embedde la query et lance une recherche
+
+        Args:
+            query (str): requête
+            top_k (int, optional): Nombre de documents à retourner au maximum. Defaults to 5.
+
+        Returns:
+            List[str]: Tableau contenant le contenu des documents retrouvés
+        """                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             
+        
+        vector = self.model.encode(query)
+        results = (
+            self.table
+            .search(vector, vector_column_name="vector")
+            .select(["content", "source"])
+            .limit(top_k)
+            .to_list()
+        )
+        
+        result_content = [
+            result["content"] 
+            for result in results 
+            if "content" in result and result["content"] is not None]
+        return result_content
+    
+    
--- a/src/impl/evaluator.py
+++ b/src/impl/evaluator.py
@ -0,0 +1,45 @@
+from ..interface.base_evaluator import EvaluationResult, BaseEvaluator
+import requests
+
+class Evaluator(BaseEvaluator):
+    
+    def __init__(self, model_name: str = "llama3.2:3b", base_url: str = "http://localhost:11434"):
+        self.base_url = base_url
+        self.model_name = model_name
+        
+        
+    SYSTEM_PROMPT = """
+You are a system that evaluates the correctness of a response to a question.
+The question will be provided in <question>...</question> tags.
+The response will be provided in <response>...</response> tags.
+The expected answer will be provided in <expected_answer>...</expected_answer> tags.
+
+The response doesn't have to exactly match all the words/context the expected answer. It just needs to be right about
+the answer to the actual question itself.
+
+Evaluate whether the response is correct or not, and return your reasoning in <reasoning>...</reasoning> tags.
+Then return the result in <result>...</result> tags — either as 'true' or 'false'.
+"""
+
+    def evaluate(self, query: str, response: str, expected_answer: str) -> EvaluationResult:
+        user_prompt = f"""
+        <questions> \n{query} </question>
+        <response> \n{response} </response>
+        <expected_answer> \n{expected_answer} </expected_answer>
+        """
+        
+        response_content = requests.post(
+            f"{self.base_url}/api/generate",
+            json={
+                "model": self.model_name,
+                "prompt": user_prompt,
+                "stream": False,
+                "options": {
+                    "temperature": 0.7,
+                    "top_p": 0.9,
+                }
+            }
+        
+        return super().evaluate(query, response, expected_answer)
+    
+    
--- a/src/impl/indexer.py
+++ b/src/impl/indexer.py
@ -0,0 +1,101 @@
+from typing import List
+from src.interface.base_datastore import DataItem
+from src.interface.base_indexer import BaseIndexer
+from docling.document_converter import DocumentConverter 
+from docling_core.transforms.chunker.hybrid_chunker import HybridChunker
+import os
+from docling_core.transforms.chunker.tokenizer.huggingface import HuggingFaceTokenizer
+from transformers import AutoTokenizer
+from langchain_text_splitters import RecursiveCharacterTextSplitter
+# pip install langchain langchain-text-splitters
+
+
+EMBED_MODEL_ID = "sentence-transformers/all-MiniLM-L6-v2"
+MAX_TOKENS = 256  # set to a small number for illustrative purposes
+#précedemment 512
+
+class Indexer(BaseIndexer):
+    
+    def __init__(self):
+        
+        self.converter = DocumentConverter()
+        self.tokenizer = HuggingFaceTokenizer(
+            tokenizer = AutoTokenizer.from_pretrained(EMBED_MODEL_ID),
+            max_tokens = MAX_TOKENS,  # optional, by default derived from `tokenizer` for HF case
+        )
+        self.chunker = HybridChunker(
+            tokenizer = self.tokenizer,
+            max_tokens = MAX_TOKENS,
+            #merge_peers = True,
+            #handle_tables = "separate",
+            #handle_pictures = "separate"
+        )
+        """self.text_splitter = RecursiveCharacterTextSplitter.from_huggingface_tokenizer(
+            tokenizer = self.tokenizer,
+            chunk_size = MAX_TOKENS,
+            chunk_overlap = MAX_TOKENS // 10,
+            separators=["\n\n", "\n", ". ", " ", ""],
+        )"""
+
+    def index(self, document_paths: List[str]) -> List[DataItem]:
+        """Convertit les documents en format docling puis les découpe en morceaux.
+        Les morceaux sont ensuite convertis sous forme de DataItem en y ajoutant des métadonnées
+
+        Args:
+            document_paths (List[str]): Liste des documents à indexer
+
+        Returns:
+            List[DataItem]: Liste des DataItems indexés 
+        """
+        items = []
+        for document_path in document_paths:
+            try:
+                document = self.converter.convert(document_path).document
+                chunks = list(self.chunker.chunk(document))
+                #chunks = self.text_splitter.split_text(document)
+                
+                item = self._convert_to_DataItem(chunks, document_path)
+                
+                items.extend(item)
+
+            except Exception as e:
+                print(f"Erreur lors du traitement de {document_path}: {e}")
+                continue
+            
+        return items
+    
+    def _convert_to_DataItem(self, chunks, document_path: str) -> List[DataItem]:
+        """Crée une liste de DataItems en ajoutant les éventuels headers au début du contenu 
+        et en récupérant la source à l'aide du module os
+
+        Args:
+            chunks : liste de chunks de documents à traiter
+            document_path: chemin vers le document, permet d'utiliser os pour récupérer directement le nom
+
+        Returns:
+            Lits[DataItem]: liste de DataItem contenant les métadonnées et séparant le contenu et la source
+        """
+        items = []
+        for i, chunk in enumerate(chunks):
+            
+            try:
+                headings = ""
+                
+                if(hasattr(chunk, 'meta') and hasattr(chunk.meta, 'headings') and chunk.meta.headings):
+                    headings = "## " + ", ".join(chunk.meta.headings) + "\n"
+                
+                text = chunk.text if(hasattr(chunk, 'text')) else str(chunk)
+                    
+                content = f"{headings}{text}"
+                
+                filename = os.path.basename(document_path)
+                source = f"{filename}:chunk {i}"
+                
+                item = DataItem(content = content, source = source)
+                items.append(item)
+            
+            except Exception as e:
+                print(f" Erreur sur le chunk {i}: {e}")
+                continue
+           
+        return items
--- a/src/impl/response_generator.py
+++ b/src/impl/response_generator.py
@ -0,0 +1,83 @@
+from typing import List
+from ..interface.base_response_generator import BaseResponseGenerator
+import requests
+import json
+
+SYSTEM_PROMPT = """Tu es un assistant intelligent qui répond aux questions en te basant sur le contexte fourni.
+
+Règles importantes:
+- Réponds UNIQUEMENT en te basant sur les informations du contexte
+- Si l'information n'est pas dans le contexte, dis clairement "Je ne trouve pas cette information dans les documents fournis"
+- Cite les sources quand c'est pertinent
+- Réponds en français de manière claire et concise
+- Ne réponds pas avec "Selon le document" mais donne directement l'information"""
+
+
+class ResponseGenerator(BaseResponseGenerator):
+    
+    def __init__(self, model_name: str = "llama3.2:3b", base_url: str = "http://localhost:11434"):
+        self.model_name = model_name
+        self.base_url = base_url
+        
+    def generate_response(self, query: str, context: List[str]) -> str:
+        """Génère une réponse basée sur la requête et le contexte."""
+        
+        # Formater le contexte
+        formatted_context = "\n\n".join([f"Document {i+1}:\n{doc}" for i, doc in enumerate(context)])
+        
+        # Créer le prompt
+        prompt =f"""Instructions: {SYSTEM_PROMPT}
+        
+                    Contexte: {formatted_context}
+
+                    Question: {query}
+
+                    Réponse:"""
+
+        # Appeler Ollama via l'API
+        try:
+            response = requests.post(
+                f"{self.base_url}/api/generate",
+                json={
+                    "model": self.model_name,
+                    "prompt": prompt,
+                    "stream": False,
+                    "options": {
+                        "temperature": 0.7,
+                        "top_p": 0.9,
+                    }
+                }
+            )
+        
+            # Vérifier le statut de la réponse
+            response.raise_for_status()
+            
+            # Parser le JSON
+            result = response.json()
+            
+            # DEBUG: Afficher la structure de la réponse
+            print(f"DEBUG - Structure de la réponse: {result.keys()}")
+            
+            # Vérifier les différentes clés possibles
+            if "response" in result:
+                return result["response"]
+            elif "message" in result:
+                return result["message"]
+            elif "content" in result:
+                return result["content"]
+            else:
+                # Si aucune clé attendue n'est trouvée
+                print(f"DEBUG - Réponse complète: {result}")
+                return f"Erreur: Format de réponse inattendu. Clés disponibles: {list(result.keys())}"
+            
+        except requests.exceptions.ConnectionError:
+            return "❌ Impossible de se connecter au serveur Ollama. Vérifiez qu'Ollama est en cours d'exécution avec: ollama serve"
+    
+        except requests.exceptions.Timeout:
+            return "⚠️ La génération a pris trop de temps. Essayez avec un modèle plus petit."
+        
+        except requests.exceptions.HTTPError as e:
+            return f"❌ Erreur HTTP {response.status_code}: {e}"
+        
+        except Exception as e:
+            return f"❌ Erreur lors de la génération: {str(e)}"
--- a/src/impl/retriever.py
+++ b/src/impl/retriever.py
@ -0,0 +1,43 @@
+from typing import List
+from ..interface.base_retriever import BaseRetriever
+from ..interface.base_datastore import BaseDatastore
+from sentence_transformers import CrossEncoder
+import numpy as np
+
+class Retriever(BaseRetriever):
+    
+    def __init__(self, datastore: BaseDatastore):
+        self.datastore = datastore
+        self.model = CrossEncoder('cross-encoder/ms-marco-MiniLM-L-6-v2')
+        
+    def search_retriever(self, query: str, top_k: int = 5) -> List[str]:
+        """Cherche dans le datastore et classe les résultats par recherche sémantique
+
+        Args:
+            query (str): Requête
+            top_k (int, optional): Nombre de résultats à retourner. Defaults to 5.
+
+        Returns:
+            List[str]: Liste de content de docs classée
+        """
+        search_results = self.datastore.search_datastore(query, top_k = top_k *5)
+        reranked_results = self._rerank(query, search_results, top_k)
+        return reranked_results
+        
+    
+    def _rerank(self, query: str, search_results: List[str], top_k: int=10) -> List[str]:
+        """Rerank le contenu des documents en fonction de la similarité avec la query
+
+        Args:
+            query (str): requête
+            search_results (List[str]): liste de documents retrieved
+            top_k (int, optional): Nombre de documents à retourner. Defaults to 10.
+
+        Returns:
+            List[str]: Liste de documents classée
+        """
+        pairs =[[query, doc]for doc in search_results]
+        scores = self.model.predict(pairs)
+        ranked_indices = np.argsort(scores)[::-1]
+        results = [search_results[idx] for idx in ranked_indices[:top_k]]
+        return results
--- a/src/interface/init.py
+++ b/src/interface/init.py
--- a/src/interface/pycache/init.cpython-312.pyc
+++ b/src/interface/pycache/init.cpython-312.pyc
--- a/src/interface/pycache/base_datastore.cpython-312.pyc
+++ b/src/interface/pycache/base_datastore.cpython-312.pyc
--- a/src/interface/pycache/base_indexer.cpython-312.pyc
+++ b/src/interface/pycache/base_indexer.cpython-312.pyc
--- a/src/interface/pycache/base_response_generator.cpython-312.pyc
+++ b/src/interface/pycache/base_response_generator.cpython-312.pyc
--- a/src/interface/pycache/base_retriever.cpython-312.pyc
+++ b/src/interface/pycache/base_retriever.cpython-312.pyc
--- a/src/interface/base_datastore.py
+++ b/src/interface/base_datastore.py
@ -0,0 +1,22 @@
+from abc import ABC,abstractmethod
+from typing import List
+from pydantic import BaseModel
+
+
+class DataItem(BaseModel):
+    content: str = ""
+    source: str = ""
+
+class BaseDatastore(ABC):
+    
+    @abstractmethod
+    def add_items(self, items: List[DataItem]) -> None:
+        pass
+    
+    @abstractmethod
+    def create_vector(self, content: str) -> List[float]:
+        pass
+    
+    @abstractmethod
+    def search_datastore(self, query: str, top_k: int=5) -> List[str]:
+        pass
--- a/Show More
+++ b/Show More
				`@ -0,0 +1 @@`
				`$8296f8ca-f94c-4570-a66a-d3dfbdac8cba<62>{2vector <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>fixed_size_list:float:38408"content <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>string08!source <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>*string08`