L’automatisation de la saisie et l’IA

Malgré 10 ans d’évolutions technologiques, l’intelligence artificielle ne parvient toujours pas à résoudre de manière complète les problèmes des experts comptables.

La saisie comptable reste donc un travail très manuel, en dépit de outils toujours plus nombreux qui existent sur le marché.

Alors qu’Amazon a des algorithmes d’extraction de texte qui analysent en temps réel les paniers des clients de supermarchés pour les facturer sans qu’ils passent à la caisse, et que Google est en mesure de faire en temps réel des traductions en langue étrangère, il est quasiment impossible de lire et de comptabiliser correctement une facture !

Deux éléments entrent en jeux : le niveau actuel de l’avancée en big data et en IA et la complexité des jeux de règles comptables. Ces deux éléments sont fortement imbriqués.

1. Le niveau technologique actuel


En termes d’avancée technique, le seul moyen d’entraîner une IA est de nourrir son Dataset avec une masse critique d’informations harmonisées.
En d’autres termes seule une masse énorme de données de bonne qualité peuvent améliorer la comptabilisation des écritures.

La seule quantité ne permet pas de générer suffisamment de données pour parvenir à traiter toutes les factures.
Trois facteurs rentrent en jeu pour améliorer l’efficacité de l’algorithme : la qualité, la quantité, et la diversité des données.

Seule une quantité de factures relativement diverses permet d’avoir une pluralité de cas suffisante pour qu’un algorithme soit en mesure d’accepter une facture qu’il n’a jamais rencontrée.
Entraîner un algorithme sur une typologie de factures spécifiques ne permettra pas d’avoir de résultats si une nouvelle facture rencontrée diffère en format de la précédente. Par exemple entraîner uniquement un algorithme sur des tickets de caisse ne permettra jamais de traiter une seule facture de vente.

De même, les données entraînant l’algorithme doivent être qualitatives, c’est-à-dire harmonisées et atomisées, réduites à leur expression la plus simple et la plus facile à comprendre.
De la même manière qu’un enfant apprenant à écrire va commencer par écrire des lettres, puis des syllabes, puis des mots, et enfin des phrases, un algorithme doit recevoir des données sous un format extrêmement découpé et régulier pour lui permettre d’apprendre rapidement à différencier les schémas de données.

2. Les règles comptables

Une autre problématique est la donnée comptable brute, car il ne faut pas seulement arriver à lire une facture mais à la lier à un compte de P&L et de Bilan.
Sachant qu’il faut également une masse de données comptables critique pour ensuite lier une facture à un schéma de comptabilisation, ce dernier est souvent propre à une entreprise et à son DAF/comptable.
Certains exemples de règles

  • création d’un fournisseur « divers » pour tous les montants inférieurs à un seuil ou création d’un fournisseur pour chaque nouvelle facture d’achat
  • comptabilisation en immobilisation ou en charge en fonction de la typologie de la dépense et en fonction des règles internes à l’entreprise
  • comptabilisation des charges qui changent en fonction du type de business de l’entité (achat pour installation VS immo)
    L’automatisation se heurte alors à un problème quantitatif (obtenir et traiter une masse de factures et de GL/FEC), et qualitatif (comment lier des écritures aux factures sans changer l’organisation comptable de chaque dépense).

L’extraction de données et donc l’OCR n’est qu’une petite partie du problème de l’automatisation de la saisie comptable.

Quelle solution ?

Chez Chaintrust nous résolvons ce problème en utilisant le FEC.
Pour chacun de nos clients nous analysons le fichier d’écritures comptables de l’année antérieure, et cela nous permet de comprendre son mode de fonctionnement et son schéma de comptabilisation.

Dans le même temps nous allons copier ce FEC et le recréer un FEC virtuel au format Chaintrust de façon à « nourrir » notre dataset. Cette étape est très importante car elle permet d’avoir un dataset harmonisé et nourri en continu de façon à donner à nos algorithmes de Machine Learning une qualité industrielle.