Extraction d'information automatique en domaine médical par projection inter-langue : vers un passage à l'échelle
Cette recherche est issue de notre volonté de tester de nouvelles méthodes automatiques d’annotation ou d’extraction d’information à partir d’une langue L1 en exploitant des ressources et des outils disponibles pour une autre langue L2. Cette approche repose sur le passage par un corpus parallèle (L1-L2) aligné au niveau des phrases et des mots. Pour faire face au manque de corpus médicaux français annotés, nous nous intéressons au couple de langues (françaisanglais) dans le but d’annoter automatiquement des textes médicaux en français. En particulier, nous nous intéressons dans cet article à la reconnaissance des entités médicales. Nous évaluons dans un premier temps notre méthode de reconnaissance d’entités médicales sur le corpus anglais. Dans un second temps, nous évaluons la reconnaissance des entités médicales du corpus français par projection des annotations du corpus anglais. Nous abordons également le problème de l’hétérogénéité des données en exploitant un corpus extrait du Web et nous proposons une méthode statistique pour y pallier.
