En classification de séquences d'images astronomiques, l'approche état-de-l'art (ConvEntion) repose sur l'utilisation d'une architecture basé sur une convolution 3D et un transformer. Cette architecture ConvEntion ne gère pas parfaitement le déséquilibre de classes. Dans cet article, nous proposons d'améliorer cela en s'appuyant sur les méthodologies auto-supervisées. Nous réduisons la variance intra-classe en passant par une architecture à deux branches. Chacune des deux branches traite une version augmentée de la donnée d'entrée. Dans le même temps, nous conservons la contrainte de classification ce qui nous permet de faire l'apprentissage sur un petit ensemble de données labellisées. Les résultats de notre modèle ICT-ConvEntion nous ont permis d'obtenir une amélioration de l'exactitude (accuracy) de 2.3% et du F1 score de 4.7% sur la base SDSS Supernova Survey.