un Lundi par mois à 18 h30

Lundi 21 Septembre 2009

Images et paroles au coeur des sciences criminelles

Gérard Chollet
Patrick Perrot

Télécom ParisTech
Institut de Recherche Criminelle de la Gendarmerie Nationale

Identifier un suspect, se faire voler son identité via les nouveaux médias sont des possibilités offertes à n'importe qui. L'image et le son apparaissent aujourd'hui comme des moyens utiles à la fois aux criminels et aux enquêteurs. Quelles sont les nouvelles possibilités exploitables à des fins judiciaires?

De nombreuses applications multimédia sont aujourd’hui à l’origine d’une nouvelle criminalité. La manipulation d’images numériques, la stéganographie audio ou vidéo, et l’imposture biométrique sont des champs d’application qui intéressent la police scientifique. L’Institut de Recherche Criminelle de la Gendarmerie Nationale et Telecom ParisTech s’intéressent à l’étude des techniques d’imposture liées à la voix, à la reconnaissance faciale, à la reconstruction de visages en trois dimensions et à l’exploitation de l’audio et de la vidéo comme support d’une information cachée. L’objet de cette présentation est donc de proposer à partir d’analyses criminelles, les techniques déployées dans le domaine de l’audio comme de la vidéo.

La reconnaissance de locuteur est un domaine d’application qui aujourd’hui est utilisé en police scientifique. Pourtant, le niveau de performance des systèmes actuels ne permet en aucun cas de considérer la voix comme une empreinte. En outre, les possibilités d’imposture sont également réelles. Par imposture, nous entendons transformation de la voix d’un individu pour être méconnaissable par changement de rythme, changement de fréquence de vibration des cordes vocales…

Exemple 1 : voix normale

( lien vers fichiers audio)

Exemple 2 : voix transformée ? plus aigue

(lien vers fichiers audio)

Nous proposerons une approche statistique de détection de la voix déguisée et de l’identification partir d’un nombre restreint de déguisements. Il est également possible de changer sa voix de façon à ce qu’elle soit perçue comme la voix d’un autre individu, c’est ce que nous appellerons la conversion de voix. Dans ce domaine nous connaissons bien entendu les imitateurs professionnels capables d’usurper l’identité d’une personne connue ou pas. Nous nous intéressons dans le cadre de nos développements à une conversion de la voix automatique qui constitue un risque criminel plus important car une fois développée la méthode est universelle. Nous avons mesuré le niveau de dégradation des performances de la conversion de la voix sur des systèmes de reconnaissance automatique du locuteur.

Au delà des questions de reconnaissance de locuteur, nous aborderons la technique de camouflage d’information au sein d’un signal audio et les méthodes pour détecter ces impostures. Le principe du camouflage repose sur l’exploitation des phénomènes de masquage de la voix et les techniques d’étalement de spectre. Nous constatons sur la figure n°1, la zone en rouge en dessous de laquelle il est possible de cacher de l’information sans qu’elle soit audible.

Figure n°1

Ces techniques à partir du signal audio peuvent être transposées à la vidéo. Dans ce domaine nous présenterons la technique classique du bit de poids faible. Celle-ci consiste à remplacer les bits de poids faible de chaque octet (RVB) représentant un pixel de l’image « contenant » par les bits de l’image à camoufler, «contenu».

En matière de reconnaissance faciale, l’investigation criminelle ne peut se fier uniquement aux techniques biométriques, car la qualité des images à analyser est bien souvent trop mauvaise pour s’appuyer sur des approches automatiques. Nous aborderons donc la méthodologie employée, et la formulation du résultat qui en aucun cas ne peut être une réponse binaire. En effet, la responsabilité de l’expert judiciaire n’est pas d’identifier ou non un individu, mais d’apporter dans la mesure du possible une échelle de fiabilité à sa réponse. Nous aborderons également la difficulté de disposer de systèmes performants dans le domaine en raison de l’hétérogénéité des images sources : vidéosurveillance, téléphone portable, Internet…

Complémentaire à la problématique de la reconnaissance, nous aborderons également la fusion de portrait-robots. En effet la description d’une personne suspecte par des témoins différents est parfois assez variable comme l’illustre la figure n°2.

Figure n°2

Dès lors, il est parfois utile de procéder à une fusion des portraits robots afin de proposer un portrait médian. (Figure n°3).

Figure n°3

Nous mesurerons l’impact de ces techniques sur des outils de reconnaissance automatique.

Enfin et pour rester dans le domaine du visage, nous nous intéresserons à la reconstruction en trois dimensions d’un visage à partir de deux vues. La finalité de cette étude est de pouvoir positionner le visage d’un individu comme le souhaite les enquêteurs en vue d’accroître éventuellement le niveau de reconnaissance. Nous visualiserons le résultat d’une telle reconstruction sur des images de bonne et de faible résolution.

Ainsi, cette présentation se propose d’aborder à la fois les techniques d’imposture et les méthodes de détection de ces impostures à partir de l’image et de la parole. Il est aujourd’hui indispensable de s’intéresser à ces techniques qui apparaissent comme des vecteurs d’amélioration de l’investigation criminelle. La course entre le gendarme et le voleur a encore de beaux jours devant elle et demeure de plus en plus d’actualité.

Télécom ParisTech
Institut de Recherche Criminelle de la Gendarmerie Nationale

VIDEO de la conférence

Programme 2009