Langue khmère : Statistiques de fréquence d’utilisation des mots en khmer

J’ai découvert par hasard un site Internet fort intéressant, proposant quelques outils utiles et gratuits.
Ce qui m’a d’abord le plus intéressé, c’est une liste de 17800 mots khmers classés par fréquence d’utilisation.
Pour constituer leur liste, les auteurs se sont appuyés sur le dictionnaire khmer-anglais de référence, en deux volumes, compilé par Robert Headley et publié en 1977.
L’analyse statistique s’est basée sur des ressources disponibles en ligne. Les auteurs ont constitué une base de données (un corpus de textes) contenant trois millions de lignes de texte. Les auteurs ont essayé d’équilibrer les sujets de leur corpus, en sélectionnant des textes se rapportant à la politique, aux voyages, à la nourriture, aux affaires, à la médecine, etc. Mais, de l’aveu même des auteurs, la sélection s’est faite de façon assez empirique.
Cette liste est probablement utile pour identifier les mots les plus couramment utilisés en khmer à l’écrit. Pour l’oral, c’est une toute autre affaire. Les différences entre l’oral et l’écrit en khmer sont énormes, aussi la liste de fréquence proposée sur ce site n’est-elle absolument pas fiable pour l’oral.
Le site propose encore un outil très intéressant, qui permet de segmenter les mots. Le khmer, à l’écrit, ne place en effet pas d’espace pour séparer les mots les uns des autres, aussi est-il parfois difficile pour un khmérisant débutant de repérer les mots. À cet outil de segmentation, je trouve aussi une utilisation fort intéressante dans le domaine de la traduction professionnelle : s’il est possible de segmenter, il doit également être possible de compter le nombre de mots. C’est extrêmement utile pour estimer le coût d’un travail de traduction à faire à partir du khmer, car nombreux sont les clients qui veulent être facturés au nombre de mots du texte source. Je vais essayer de creuser un peu ce sujet avec les auteurs du site.
La page d’accueil du site se trouve ici (c’est également sur cette page que vous pouvez copier-coller ce que les auteurs appellent le « reading tool » – outil de lecture – pour segmenter les mots).
La liste complète des 17800 mots classés par ordre de fréquence se trouve ici.

Publicités
Cet article, publié dans Langue khmère, Liens utiles, Vocabulaire, est tagué , , , , , . Ajoutez ce permalien à vos favoris.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s