Nous avons annoncé en janvier le lancement de la dernière version de Nuxeo, la LTS 2019. Un lancement majeur, ce pour deux raisons. Premièrement, il propulse Nuxeo vers un nouveau modèle d’innovation continue qui nous permettra d’étoffer notre offre Nuxeo Cloud avec de nouvelles fonctionnalités dès leur disponibilité. Deuxièmement, la LTS 2019 s’accompagne de fonctionnalités avancées dans les domaines de l’intelligence artificielle (IA) et du machine learning (ML).

Ces deux technologies sur toutes les lèvres depuis quelques années. Nous sommes sans aucun doute au milieu d’une révolution dans le domaine de la gestion de l’information. Pendant de nombreuses années, nous avons distingué contenu et données, information structurée et information non structurée. Dans de nombreux cas, le contenu a été relégué au second plan, devenant plus un problème à résoudre qu’une opportunité à exploiter.

Pensez-y. Selon la plupart des estimations, le contenu (ou information non structurée) représente plus de 80 % de l’information. Plus important encore, la quasi-totalité de l’information générée manuellement est en fait du contenu. Le contenu nous permet de travailler. Il nous permet de communiquer et de collaborer. Il nous permet de prendre des décisions. Il nous permet d’analyser d’importants volumes de données. Et, avec l’explosion des ressources numériques (photos, vidéos, sons, etc.), il nous permet d’interagir et de répondre aux attentes de nos clients. En résumé, le contenu est essentiel pour les entreprises modernes, mais la plupart d’entre elles ne disposent pas de solutions efficaces pour le créer, le stocker, le distribuer ou le gérer.

Très peu d’entreprises considèrent le contenu comme une ressource vraiment précieuse.

Et la raison est simple. Il est complexe et difficile à gérer. De manière générale, une intervention humaine est nécessaire pour interpréter le contenu et sa valeur relative. Mais avec l’avènement des technologies d’IA/ML, nous avons commencé à redéfinir les limites entre contenu et données. Nous disposons désormais d’outils automatisés nous permettant de mieux comprendre l’information non structurée, d’en extraire des données de valeur, d’y associer des informations pertinentes et d’importer, voire même d’interpréter, l’intention de son créateur. En bref, nous avons désormais les moyens d’étoffer le contenu, de faciliter sa recherche et sa réutilisation, de le distribuer de manière précise et de l’explorer intelligemment afin de générer la connaissance permettant aux entreprises de garder une longueur d’avance sur la concurrence.

L’intelligence artificielle aujourd’hui

Après avoir évoqué les promesses offertes par les technologies d’AI/ML, voyons les fonctionnalités ajoutées dans notre version LTS 2019.

L’année dernière, nous avons annoncé un framework d’IA capable de supporter l’intégration à divers moteurs d’IA tiers tels que Google Vision, Amazon Rekognition et même Amazon Comprehend. Comme d’autres éditeurs de solutions de DAM (Digital Asset Management), nous en avons profité pour proposer un étiquetage et une classification automatiques des images et du contenu ainsi que l’analyse des sentiments au sein de documents et communications. Et même un étiquetage du contenu vidéo.

Mais même si ces outils donnent lieu à d’excellentes démos, nous avons réalisé qu’ils n’apportaient que peu de valeur métier à nos clients. Il était certes impressionnant de voir une machine appliquer des labels à une image ou à une vidéo. Mais à quoi cela sert-il vraiment ? Le problème avec les moteurs d’IA les plus génériques (tels que Google Vision) est justement leur manque de spécificité. Ces outils peuvent décrire les éléments présents dans une image et enrichir le contenu, mais difficile de mesurer l’impact de ces informations sur l’activité des entreprises.

Par ailleurs, les labels se contentent généralement de faciliter la recherche et la récupération du contenu. Dans la plupart des systèmes de gestion de contenu, les labels sont enregistrés dans un seul champ sous forme de chaîne d’objets textuels. Il est donc difficile de les utiliser pour déclencher des workflows ou initier certaines actions métier spécifiques. Enfin, les utilisateurs ont du mal à interagir avec ces tags, par exemple pour confirmer la précision des données appliquées à une image.

Mais alors, où en sommes-nous ? Tout d’abord, nous sommes ravis d’annoncer que la version LTS 2019 permet à nos clients d’entraîner et de déployer leurs propres modèles d’IA personnalisés. On parle ici d’intelligence artificielle « orientée métier », permettant d’alimenter des modèles d’IA spécifiques basés sur leurs propres données métiers et, de fait, adaptés aux besoins spécifiques de leur business. Deuxièmement, Nuxeo supporte désormais l’extraction complète d’entités grâce à l’IA afin d’associer les données générées à des champs de métadonnées.

Nous sommes donc en mesure d’alimenter nos modèles d’IA afin de proposer des données plus précises, mais également d’extraire ces informations pour les appliquer à d’autres ressources en tant que métadonnées.
Pourquoi est-ce si important ? Alors que les labels nous permettent d’améliorer la recherche d’images, l’extraction de métadonnées va bien plus loin avec la possibilité d’automatiser la capture d’images, de déclencher des workflows ou des processus métier et, même, d’associer de nouvelles ressources à des tâches ou missions en cours.

Et de façon plus concrète ?

Le scénario suivant vous permettra d’y voir plus clair. Vous trouverez ci-dessous la photo d’un pick-up Ford F-150, le véhicule le plus vendu aux États-Unis depuis 1986.

AI at Nuxeo

Après un rapide glisser-déposer, Google Vision applique de nombreux labels génériques à cette image, l’identifiant correctement en tant que Motor Vehicle (véhicule à moteur) et Pickup Truck (pick-up). On voit même d’autres labels venant identifier ce véhicule comme étant de marque Ford et, plus spécifiquement, un Ford F-Series.

C’est déjà bien. Google Vision a correctement identifié la marque et même la gamme du véhicule. Le service a même essayé d’identifier le modèle en appliquant les tags Ford F-350 et Ford Super Duty à l’image. Mais il s’agit bien d’un pick-up Ford F-150. Google Vision parvient à enrichir les données associées à cette image, mais ces données restent très génériques et sont dans certains cas inexactes.

On voit également que Google Vision est surtout attiré par les éléments au centre et au premier plan de l’image, avec les labels Wheel (roue), Tire (pneu), Fender (aile) et Bumper (pare-chocs). Mais aucune mention des éléments en arrière-plan.

Regardons ceci sous l’angle business :

Artificial Intelligence at Nuxeo

Si je travaille au sein de l’équipe marketing de Ford, je veux savoir que cette image représente un Ford F-150. Qu’il s’agit d’une édition limitée. Quatre portes, modèle SuperCrew, coloris Agate noire. Avec des jantes chromées 22 pouces. Et je veux également savoir que cette image contient des bateaux en arrière-plan et un coucher de soleil. En résumé, pour que les données aient une vraie une valeur métier, elles doivent répondre aux besoins spécifiques du business. Et c’est pour cette raison que les modèles d’IA personnalisés sont essentiels pour une plateforme de services de contenu telle que Nuxeo.

Notez également que les données sont présentées différemment dans cette seconde image. Au lieu d’une suite de valeurs textuelles, ou labels, le système propose une véritable extraction des métadonnées. Les valeurs relatives à la marque, le modèle, les finitions ou la couleur ont été correctement extraites et appliquées, permettant une recherche plus précise et modulable et l’association de nouvelles ressources à des workflows ou des actions spécifiques. Et si un utilisateur humain doit valider ces champs de métadonnées, il est bien plus efficace de les présenter de cette façon.

Les limites de l’intelligence artificielle

L’intelligence artificielle révolutionne le monde et notre rapport au contenu et aux ressources numériques. Mais il y a une différence entre l’intelligence et l’expertise. Pour être vraiment efficace, votre moteur d’IA doit connaître votre métier.

C’est pour cette raison que la version LTS 2019 est aussi importante pour la plateforme Nuxeo. Avec cette version, nous avons donné à nos clients la possibilité d’utiliser des modèles de machine learning personnalisés et de les alimenter avec leurs propres jeux de données. Nous supportons également l’extraction d’entités afin d’associer des données à des champs de métadonnées spécifiques, et ainsi proposer un étiquetage avancé.

Dans mon prochain article, j’évoquerai notre roadmap 2019 sur nos fonctionnalités d’intelligence artificielle. Je partagerai également avec vous nos quatre principes en matière d’IA et notre vision à long terme pour permettre à nos clients de tirer parti du potentiel de l’intelligence artificielle et du machine learning.