Moteur de recherche multi modal (CLIP & FAISS)

Cette partie détaille la mise en place de notre approche multimodale. En combinant l'espace vectoriel partagé du modèle CLIP et l'indexation rapide de FAISS, ce système crée un pont direct entre la compréhension du texte et la vision par ordinateur.