IA et droits d’auteur : pourquoi les Legaltechs sont-elles le nouveau champ de bataille ?
L’émergence des technologies d’intelligence artificielle dans le secteur juridique révolutionne la recherche juridique et la prise de décision. Cependant, le développement d’outils de legaltech pose des questions juridiques et éthiques fondamentales, en particulier concernant le droit d’auteur. Deux litiges récents illustrent ces enjeux : Ross Intelligence contre Thomson Reuters et Caseway contre CanLII.
Cet article analyse les arguments juridiques de chaque partie, avant de mettre en lumière la complexité du cadre réglementaire européen et américain, notamment en ce qui concerne le « fair use » et l’exception de « text and data mining » (TDM) introduite par la directive européenne sur le copyright.
La legaltech regroupe des technologies et outils conçus pour améliorer et automatiser les services juridiques. Ils aident les professionnels du droit à optimiser leurs tâches, les particuliers à mieux accéder aux informations juridiques et les entreprises à naviguer dans les complexités réglementaires. Voici cinq exemples notables d’outils de legaltech, répartis entre des plateformes internationales et européennes :
Legaltech | Origine | Description | Fonctionnalités | Usages |
Ross Intelligence | États-Unis | Moteur de recherche juridique qui analyse des bases de données juridiques pour fournir des réponses précises aux questions posées par les avocats | Recherches en langage naturel et des suggestions de cas pertinents, facilitant ainsi la recherche de jurisprudence | Utilisé par les cabinets pour réduire le temps passé sur la recherche juridique, en analysant rapidement des bases de données volumineuses |
Kira Systems | Canada | Logiciel d’analyse de contrats propulsé par le machine learning, destiné à Extraire, analyser et organiser les informations dans des documents juridiques | Analyser divers types de contrats et de repérer des clauses, anomalies ou risques particuliers. | Les avocats l’utilisent dans le cadre de la due diligence lors de fusions-acquisitions, Audits, et pour optimiser le traitement des contrats |
DoNotPay | Royaume-Uni/États-Unis | Initialement conçu pour contester des contraventions de stationnement, DoNotPay est une application qui aide les utilisateurs à traiter des questions juridiques simples, comme des réclamations de compensation ou des résiliations de contrats. | “Le premier avocat robotique”, permet aux utilisateurs de remplir des formulaires légaux, en particulier pour des petites réclamations.
|
Utilisé par les particuliers qui cherchent à résoudre des litiges mineurs ou faire valoir leurs droits sans avocat.
|
Legalstart | France | Plateforme de services juridiques en ligne dédiée aux entrepreneurs et petites entreprises.
|
Services pour la création d’entreprise, des formalités administratives, la rédaction de contrats ou la mise en conformité légale, le tout avec des guides et un support automatisé | Aide les entrepreneurs à réaliser des démarches juridiques simples et à un coût réduit, en évitant les frais d’avocat dans la mesure du possible |
CaseText | États-Unis | Outil de recherche et d’analyse juridique basé sur le traitement du langage naturel, conçu pour offrir une aide à la rédaction juridique et à la recherche de jurisprudence. | La fonctionnalité CARA AI, CaseText analyse des documents juridiques, identifie les cas similaires et fournit des références de jurisprudence pertinentes. | Utilisé par des cabinets d’avocats et des juristes pour améliorer la précision et la rapidité des recherches et obtenir des résultats plus complets en fonction des documents analysés. |
Litige Ross Intelligence vs. Thomson Reuters : une question de « fair use »
Ross Intelligence, une legaltech américaine, a développé une IA qui utilise l’analyse de données textuelles pour fournir des réponses juridiques rapides et précises. Son modèle d’apprentissage (Machine Learning) nécessite des données en grande quantité, que Ross a obtenues en s’appuyant sur la base Westlaw de Thomson Reuters. Ce dernier a intenté un procès en mai 2020 (District Court of Delaware), accusant Ross d’utilisation illégale de données protégées.
Ross soutient que l’entraînement de son IA sur les données de Westlaw constitue un usage transformatif, c’est-à-dire une utilisation qui modifie et enrichit le contenu pour un but différent de la simple consultation. Ross argue que cet usage s’inscrit dans un objectif d’innovation et d’amélioration de l’accès à la justice, un argument qui renforce sa légitimité dans le cadre du « fair use » en faveur de l’intérêt public. L’entreprise déclarait le 6 novembre 2024 :
« ROSS a traduit les mots des questions et des avis judiciaires en relations mathématiques pour créer un outil qui, sur la base d’une question juridique, produit des passages judiciaires pertinents. La manière dont les mots sont liés les uns aux autres mathématiquement n’est pas l’expression, le sens ou le message du contenu Westlaw ». (Suivre l’affaire sur le site BakerLaw).
Pour Thomson Reuters, l’entraînement des algorithmes de Ross représente une exploitation directe de ses contenus sous droit d’auteur, sans autorisation. Thomson Reuters souligne l’importance de protéger les investissements nécessaires à la constitution de Westlaw et fait valoir que l’exploitation de ses données nuit à la valeur de son produit en créant un service concurrentiel.
Les tribunaux américains utilisent quatre critères pour évaluer l’utilisation équitable :
- le but et le caractère de l’utilisation,
- la nature de l’œuvre protégée par le droit d’auteur,
- le montant et l’importance de la part prise, et
- l’effet de l’utilisation sur le marché potentiel.
Ainsi, la nature transformatrice de l’usage et l’effet sur la valeur de l’œuvre originale sont pris en compte. Ici, les arguments de Ross sur l’innovation et l’intérêt public pourraient avoir un poids significatif, mais le « fair use » reste une défense imprévisible, souvent modulée par des facteurs économiques et commerciaux.
Litige Caseway vs. CanLII : quand accès public et propriété s’opposent au Canada
CanLII (Institut canadien d’informatique juridique) est une base de données financée par la Fédération des ordres professionnels de juristes du Canada (organisation à but non lucratif) qui rend le droit accessible gratuitement au public canadien : lois, décisions judiciaires et ressources secondaires. La plateforme est réputée pour la méticulosité de son analyse et son caractère convivial.
Cependant, Caseway, une legaltech fondée en août 2024, a cherché à exploiter les données de CanLII sans son autorisation pour alimenter ses propres outils juridiques payants. Ce litige porté devant la Cour suprême de la Colombie-Britannique met aussi en lumière les tensions entre accès public à l’information et protection des bases de données : CanLII affirme que Caseway AI a systématiquement téléchargé le contenu de CanLII en masse sans autorisation ni compensation, violant ainsi les protections du droit d’auteur. À ce jour, CanLII estime que plus de 120 gigaoctets de données englobant 3,5 millions d’enregistrements ont été obtenus illégalement par les défendeurs.
Caseway plaide que pour développer des outils de recherche avancés et améliorer l’accessibilité du droit, il doit exploiter les données disponibles, même celles de CanLII. L’argument principal de Caseway repose sur le fait que l’accès à ces données sert l’intérêt public et relève de l’open data (données publiques), en facilitant la recherche juridique et en encourageant l’innovation. L’entreprise a recueilli un soutien important, avec plus de 200 avocats inscrits depuis le début de l’action en justice et souligne l’intérêt des sociétés de capital-risque, suggérant que l’action en justice a involontairement renforcé la visibilité et la crédibilité de Caseway.
CanLII, de son côté, fait valoir que ses données ne doivent pas être exploitées à des fins commerciales sans son consentement, afin de garantir la qualité, la fiabilité et l’accessibilité gratuite de ses services. En défendant son modèle, CanLII cherche à prévenir l’exploitation commerciale excessive de ses contenus. Ainsi, même si le contenu des écrits juridiques ne peut être protégé par le droit d’auteur, la compilation et l’arrangement par des éditeurs comme CanLII peuvent être soumis à la protection du droit d’auteur (affaire CCH Canadian Ltd. c. Law Society of Upper Canada de 2004).
La réglementation canadienne sur les bases de données est plus restrictive que celle des États-Unis, notamment en matière d’utilisation commerciale. Cependant, le litige souligne les défis posés par l’innovation juridique, qui dépend de l’accès à une large base de données pour former des IA.
Le rôle de la directive européenne et du « fair use »
Aux États-Unis, c’est donc la doctrine du « fair use » qui pourrait justifier l’usage de bases de données protégées par droit d’auteur, pourvu que cet usage soit jugé transformateur et n’impacte pas négativement la valeur commerciale de l’œuvre originale. Dans le cas Ross, l’usage transformatif pourrait être plaidé, mais les conséquences économiques sur Westlaw sont un facteur qui risque de limiter l’application du « fair use ».
En Europe, c’est la directive européenne sur le droit d’auteur qui a introduit une exception pour le « text and data mining » (TDM) permettant l’extraction de données protégées, mais avec des limitations importantes pour les entreprises privées.
La directive a été transposée en droit interne et en France, les titulaires de droits ne peuvent interdire :
« les copies et reproductions numériques réalisées à partir d’une source licite aux fins d’exploitation de textes et de données inclus dans ou associés à des publications scientifiques, à des fins de recherche publique, à l’exclusion de toute fin commerciale »
(art. L. 122-5 du Code de la Propriété Intellectuelle).
Le texte ne parle pas d’« accès licite » ou d’« utilisateur licite », mais se concentre plutôt sur la licéité de la source elle-même. L’exception est toutefois limitée à la « recherche publique », c’est-à-dire, probablement, à la recherche menée par des organismes publics et aux données « incluses dans ou associées à des publications scientifiques ».
Concernant le droit sui generis des bases de données, lorsqu’une base de données est mise à la disposition du public par le titulaire des droits, celui-ci ne peut interdire notamment :
« 1° L’extraction ou la réutilisation d’une partie non substantielle, appréciée de façon qualitative ou quantitative, du contenu de la base, par la personne qui y a licitement accès ;
2° L’extraction à des fins privées d’une partie qualitativement ou quantitativement substantielle du contenu d’une base de données non électronique sous réserve du respect des droits d’auteur ou des droits voisins sur les oeuvres ou éléments incorporés dans la base ».
(art. L. 342-3° du Code de la Propriété Intellectuelle).
Tandis que les institutions de recherche bénéficient d’une plus grande liberté, les entreprises comme Ross ou Caseway pourraient voir leurs accès bloqués en raison de l’opt-out offert aux titulaires de droits. Cette exception reste donc restreinte, notamment pour les acteurs commerciaux.
En France : ‘Doctrine.fr’ et les enjeux d’accès aux données juridiques
Doctrine, une plateforme française de recherche juridique, rencontre également des résistances en raison de son exploitation de données judiciaires publiques pour entraîner son IA. Doctrine plaide pour un libre accès à ces données dans l’intérêt public, alors que cinq éditeurs français s’opposent depuis 2020 à une exploitation commerciale trop large des décisions de justice (Dalloz, Lamy Liaisons, Lexbase, LexisNexis et Lextenso).
Les éditeurs poursuivent la société mère de Doctrine.fr, Forseti, mais se situent sur un autre terrain : celui de la concurrence déloyale, publicité trompeuse et « parasitisme », réclamant des dommages et intérêts qui s’élevaient à 2,5 millions €.
« Nous sommes très intrigués de savoir comment Doctrine.fr peut donner autant de décisions quand les juridictions concernées nous assurent qu’elles n’ont pas passé de contrat avec ce site », soulignait Christophe Caron dans le Monde.
La start-up aurait-elle imité des adresses email d’avocats, d’élèves avocats et d’universités (« typosquatting ») pour obtenir des documents auprès de greffiers ? Les faits n’étaient pas établis par les requérants.
Saisi du litige, le Tribunal de commerce de Paris a reconnu que la collecte de décisions de justice par Doctrine.fr était licite. L’appel effectué par les éditeurs a confirmé la décision de première instance. Ces derniers sont condamnés pour procédure abusive à lui verser entre 50 000 euros et 125 000 euros au titre de l’article 700 du Code de procédure civile.
Quand le droit d’auteur fait face à l’IA juridique
La montée en puissance des technologies IA dans le droit pose des questions juridiques cruciales sur l’usage des bases de données protégées par droit d’auteur : les questions de propriété des données, de licences et d’utilisation éthique des documents publics deviennent de plus en plus importantes. Les litiges entre Ross Intelligence et Thomson Reuters, ainsi qu’entre Caseway et CanLII, montrent que l’équilibre entre innovation et droits des producteurs de données est complexe. La doctrine du « fair use » aux États-Unis et l’exception TDM en Europe représentent deux tentatives de réponse à ces défis, mais leur application reste limitée.
La question des droits d’auteur est au cœur du règlement européen intelligence artificielle : découvrez notre offre de formation.