Cette partie détaille la mise en place de notre approche multimodale. En combinant l'espace vectoriel partagé du modèle CLIP et l'indexation rapide de FAISS, ce système crée un pont direct entre la compréhension du texte et la vision par ordinateur.
Recherche Sémantique
OU
Choix du top
Veuillez saisir un texte ou sélectionner une image, ainsi que de remplir le champ 'Choix du top' avant de lancer la recherche.