[1]

“An Explainability-Driven Framework for Interpretable Cross-Modal Image-Text Retrieval Using CLIP”, IJLTEMAS, vol. 15, no. 3, pp. 788–800, Apr. 2026, doi: 10.51583/IJLTEMAS.2026.150300065.