Comment choisir son modèle de machine learning pour ses travaux de production ou de revue comptable ?

L’univers de l’intelligence artificielle est un concentré d’anglicisme et de jargon technique. Parfois très proches, 2 termes pourtant très voisins peuvent signifier des procédés fondamentalement opposés. En matière de machine learning, il convient de distinguer deux grandes familles d’algorithmes selon que les données soient labellisées ou non. 

Labélisation de données : quésaco ?

La labellisation de donnée est un procédé par lequel l’homme (ou la machine) octroie des caractéristiques à une donnée, permettant de la définir. Dans le monde de la comptabilité, cela revient à structurer une multitude d’informations non structurées présentes sur une facture en informations structurées sous la forme d’une écriture comptable. En définitive, la comptabilité est un procédé de labellisation de donnée consistant à caractériser les informations essentielles d’une transaction économique pour être compréhensible par un lecteur initié. Selon la pertinence et la finalité de l’analyse. Les outils de machine learning peuvent alors se baser sur des ensembles de données labellisées (approche supervisée) ou non labellisées (approche non supervisée).

Régression linéaire

La régression linéaire permet de prédire une situation au regard de facteurs quantitatifs labellisés. Il s’agit d’une approche mécaniste basée sur la corrélation de 2 facteurs. En d’autres termes, une variation de X entraine une variation de Y, si et seulement si X et Y entretiennent une relation fortement corrélée.  Les analyses par régressions linéaires peuvent se faire avec une multitude de facteurs, permettant ainsi de déterminer au passage ceux qui influencent le plus la prédiction.

Business case : Corroboration de l’évolution du CA de l’exercice avec l’évolution d’un indice interne (cogs) ou externe (indice de marché). Par exemple, il est possible de corroborer le chiffre d’affaires d’un négociant avec le cout d’achat de ses marchandises vendues ou bien le revenu d’un hôtel avec le RevPar d’un benchmark d’hôtels similaires (emplacement, nbr d’étoiles, …).

Classification

La classification est un procédé supervisé semblable à la saisie comptable. A l’image d’attribuer des comptes à des opérations économiques, le classement automatique consiste à catégoriser une situation au regard d’une multitude de statistiques et de variables labellisées. 

Business case : Prédiction de schéma comptable au regard d’un contexte précis. La machine reconnait une situation impliquant plusieurs critères. Elle peut alors classifier une facture du fournisseur Plateforme du bâtiment d’une société de BTP en achat de matière première ou en outillage selon le champ lexical des rubriques de facturation.

Clustering

Le clustering est une pratique très controversée qui consiste à confier à l’outil la tâche d’identifier des patterns au sein d’un jeu de donnée non labellisé. Il s’agit d’un procédé qui permet de mettre en avant des patterns que l’œil humain n’aurait pas identifiés auparavant et permet donc de suggérer de nouvelles approches. Toutefois, il convient de rester prudent avec ce type d’approche dans la mesure où d’une part corrélation entre 2 facteurs ne signifie pas causalité et d’autre part, le jugement de l’algorithme peut demeurer sans explication, car non supervisé (cf. phénomène de blackbox).

Business case : Le clustering peut être utilisé dans les missions de revue limitée ou d’audit légal mais il trouve davantage son utilisation dans des procédures spécifiques de forensic accoutning destinée à identifier des patterns spécifiques ‘e fraudes de gestions.

Outliers

Au moyen d’une multitude d’indicateurs, les algorithmes d’outliers spotting permettent d’identifier les données aberrantes sans même avoir besoin de connaitre la nature de jeu de donnée. 

Business case : Dans le cadre d’un audit, identification de données aberrantes dans un sampling d’analyse, identifier les utilisateurs ayant saisie un nombre anormal d’écritures au FEC, identifier des entrées ou des sorties anormales en stock, …

Chez Chaintrust nous sommes plutôt team Classification et Outliers. En amont, la pièce déposée est analysée et une multitude de caractéristiques lui sont attribuées. Cela permet de qualifier la transaction pour lui attribuer le bon schéma comptable. En aval, au regard du FEC et des saisies antérieures, nos outils d’outliers spotting s’assurent qu’aucune aberration n’a été saisie.

Vous aussi, confiez votre saisie à la puissance et la précision de nos outils de classifications de Chaintrust pour prendre le temps de découvrir quels outils vous pourriez mettre en place dans votre cabinet !