En statistique, la queue ou traîne d'une loi de probabilité correspond à la portion éloignée de la « tête » ou valeur centrale de la loi. Une loi de probabilité est dite à longue traîne si une plus grande partie de la loi est contenue dans sa traîne par rapport à celle de la loi normale. Une loi à longue traîne est un cas particulier de lois à queue lourde. Benoît Mandelbrot a été surnommé le « père des longues traînes » pour son article de 1951 dans ce domaine[1].
Dans le monde des affaires, l'expression longue traîne (long tail en anglais) est connue des anglophones pour désigner la stratégie consistant à vendre de petites quantités de produits très divers. Cette expression a été popularisée, en 2004, par Chris Anderson, dans un article de Wired[2], où il présente des entreprises telles qu'Amazon ou Ebay, comme des exemples d'application de cette stratégie.
La longue traîne dans la théorie des statistiques
La longue traîne est une expression courante pour désigner un phénomène connu depuis longtemps[3] des statisticiens (loi de Zipf, loi de Pareto, loi de Lévy). La loi la plus utilisée en statistique, la loi normale, aussi appelée la cloche de Gauss pour sa forme, est critiquée dans certaines de ses utilisations pour sa queue étroite. En finance par exemple, cette queue étroite correspond à une sous-estimation des variations extrêmes, et de nouveaux modèles, dits leptokurtiques (littéralement à cloche mince, donc à queues épaisses), cherchent à éliminer ce problème. Le phénomène est aussi connu sous les noms de grandes queues, queue des lois de puissance ou queues de Pareto. Ces distributions sont en général de la forme ci-contre.
Dans ces distributions, une population à grande fréquence ou grande amplitude est suivie par une population à fréquence faible ou de faible amplitude, qui diminue graduellement en une « queue ». Bien souvent, les événements peu fréquents ou de faible amplitude (la longue queue), représentés par la portion jaune du premier graphique, peuvent au total représenter un poids ou un nombre plus important que la première partie du graphique.
De telles répartitions sont étonnamment fréquentes, particulièrement dans les distributions linguistiques. Par exemple, dans l’anglais courant, le mot the est le plus courant ; d’autres mots courts tels que of, and et to sont aussi très courants, beaucoup plus que d’autres mots courants. Par exemple, le mot the représente 12 % des mots utilisés, tandis que le mot barrack survient moins d’une fois sur 50 000 ; mais par accumulation, les mots aussi rares que barrack composent environ un tiers du texte. Ces mots rares sont la longue queue du vocabulaire anglais[4].
La long tail de Chris Anderson
L’expression long tail (équivalent anglais de « longue traîne ») est utilisée par Chris Anderson. Il se réfère à l’essai de Clay Shirky[5], lequel remarquait qu’un nombre relativement petit de weblogs ont de nombreux liens web pointant vers eux, alors que la longue traîne est composée de millions de weblogs qui n’ont que peu de liens qui pointent sur eux. Dans une série de conférences et dans un article du magazine Wired, paru en , Anderson décrit les effets de cette longue traîne sur les modèles économiques présents et futurs. Il pense que les produits qui sont l’objet d’une faible demande, ou qui n’ont qu’un faible volume de vente, peuvent collectivement représenter une part de marché égale ou supérieure à celle des best-sellers, si les canaux de distribution peuvent proposer assez de choix et créer la liaison permettant de les découvrir. Des exemples de tels canaux de distribution sont représentés par Amazon, Netflix ou Wikipédia. Comme ces exemples l’illustrent, la longue traîne est un marché potentiel, rendu accessible par les possibilités d’Internet.
Un employé d’Amazon décrit la longue traîne ainsi : We sold more books today that didn't sell at all yesterday than we sold today of all the books that did sell yesterday. (« Aujourd'hui, nous vendons des livres qui ne se sont jamais vendus, bien plus que nous ne vendons ces livres qui ont déjà trouvé leurs lecteurs. »)[6] Dans le même ordre d’idée, les articles peu lus de Wikipédia ont, collectivement, plus de lecteurs que les articles principaux que l’on peut également trouver sur des encyclopédies généralistes telles que l’Encyclopædia Britannica. La même chose se passe pour les livres à l’inventaire d’Amazon : la demande totale pour les articles peu demandés dépasse la demande totale des articles très demandés. La stratégie commerciale s'avère plus rentable que si elle tenait uniquement sur la vente de blockbusters.
Ce concept a été critiqué comme inadapté à certains domaines[7], par Anita Elberse et Felix Oberholzer-Gee, des professeurs de Harvard[8], ainsi que des universitaires de Wharton[9], sans réponse jugée convaincante[10] de Chris Anderson.
Rapport avec les coûts de stockage et de distribution
Le facteur clé qui détermine si les ventes d’un commerce peuvent utiliser le modèle à longue traîne est le coût de stockage et de distribution. Quand ces coûts sont faibles, il devient rentable de vendre des produits peu demandés ; quand il est onéreux de stocker et de distribuer, seuls les produits les plus populaires sont vendus.
Un exemple significatif est le commerce de location de vidéos. Un magasin de location traditionnel est limité par sa longueur d’étagères, qu’il paie sous forme de loyer. Pour maximiser ses profits, il doit exposer uniquement les titres les plus demandés, afin d'utiliser de façon optimale l'espace à sa disposition. Netflix au contraire dispose d’entrepôts centralisés, qui lui permettent de baisser les coûts de stockage ; le coût de distribution est le même, que ce soit pour un film populaire ou un autre peu demandé. Netflix peut ainsi être rentable en ayant un catalogue bien plus large que des magasins traditionnels. La logistique avancée de stockage ou de distribution permet ainsi de louer davantage de films à public restreint que de films populaires.
Conséquences culturelles et économiques
La longue traîne peut avoir d’importantes conséquences culturelles et économiques. Quand le coût d'opportunité (stockage et distribution) est élevé, seuls les produits qui concentrent le maximum d'achats sont proposés à la vente, ce qui ne permet de toucher que très imparfaitement l'ensemble du marché potentiel. Quand l’effet longue traîne est exploité, la totalité du marché potentiel est accessible, la demande de blockbusters aussi bien que les goûts minoritaires sont satisfaits et les individus ont un plus grand choix. La télévision en offre un bon exemple : chaque chaîne dispose d’un temps limité de diffusion (24 heures maximum par jour), donc le coût d’opportunité de chaque tranche horaire est élevé ; les chaînes choisissent donc le programme qui potentiellement rassemblera le plus de monde. Mais lorsque le nombre de chaînes augmente, ainsi que leurs moyens de diffusion (chaînes hertziennes, par satellite, par câble, par ADSL, TNT), il est possible de proposer des programmes plus variés.
Certaines des plus grandes réussites sur Internet ont ouvertement pris en compte la longue traîne dans leur modèle économique. On peut citer eBay, Yahoo!, Google, Amazon.
Bien que la longue traîne soit presque l'inverse de la loi des 80/20, l'expression « longue traîne » est de plus en plus employée à mauvais escient chaque fois qu'une courbe présente son allure. Il en résulte des contre-sens sur la notion de « phénomène de longue traîne » qui est parfois utilisée pour décrire exactement l'inverse.
Rôle central de la mise en relation
Pour pouvoir bénéficier de l'effet de longue traîne, il est nécessaire de mettre en place un lien entre des objets connus et d'autres qui ne le sont pas[11]. Sans cette mise en avant le modèle économique s'effondre, car les capacités de recherche des individus sont limitées par leurs propres connaissances, et par les outils permettant d'accéder aux objets. Amazon propose ainsi plusieurs rubriques liant un produit à un autre (articles fréquemment achetés ensemble, etc). Le rôle déterminant de la mise en relation s'illustre parfaitement avec le fonctionnement d'internet, où l'essentiel du top 50 des sites les plus visités ne représente pas 1 % de la totalité de l'information disponible, l'importance de la mise en relation est centrale, comme en témoigne l'importance des liens retour et l'utilisation de moteurs de recherche.
La longue traîne en référencement naturel
La longue traîne est également un concept fortement utilisé dans le domaine du référencement naturel. Elle y désigne les mots clés qui attirent chacun peu de visiteurs sur un site Internet, mais dont le cumul peut représenter une part non négligeable du trafic total d'un site. La longue traîne est généralement constituée de mots peu utilisés ou au moins de synonymes peu connus qui, du fait de leur faible utilisation par les internautes, seront moins concurrentiels : si moins de recherches sont faites sur ces mots-clés, il est en revanche plus facile pour les sites d'obtenir une bonne position dans les SERP.
De manière générale, plus l'expression utilisée par l'internaute est longue, plus elle a de chances de faire partie de la longue traîne. Les expressions courtes composées de 1 à 3 mots en sont généralement exclues.