Analyse et Classification d'évènements d'actualité pour l'amélioration de méthodes de prévision


Mots clefs : Prévision, audience, analyse, évènement, impact, classification, clusters, buzz, bruit
Keywords: Forecasting, audience, analysis, event, impact, classification, cluster, buzz, noice

Résumé : Nous présentons ici une analyse de l'impact d'événements d'actualité sur la publication d'articles en ligne et donc indirectement sur l'audience des sites internet. Ces événements peuvent être des manifestations sportives, des élections, des catastrophes naturelles, des décès de personnalités ou encore des sorties de nouveaux albums, de films ou d'émissions télévisuelles, et plus généralement toute sortie de nouveau produit ou service. Selon leur nature et leur puissance, ces événements ont pour conséquence directe d'influencer le nombre et le type d'internautes connectés sur les sites d'actualité et donc indirectement sur internet. Nous utilisons ici des données collectées quotidiennement par les crawlers de la société Synthesio afin d'identifier le nombre et le type des publications quotidiennes (articles de presse nationale, régionale, billets de blogs, vidéos d'information, etc.). Les événements sont ensuite catégorisés et modélisés afin de fournir un support de prévision. Une bonne catégorisation des événements permet en effet de déduire le comportement probable d'un événement et d'anticiper les montées en charge. Nous présentons également ici les premiers apports qu'elle a pu avoir dans la prévision des audiences internet des sites du groupe TF1.

Abstract : We present an analysis of the impact of news events on the publication of online news articles and thus indirectly on the audience of websites. These events can be sporting events, political elections, natural disasters, deaths of key figures or outflows of new albums, movies or TV shows, or any event related to the release of new products or services in general. Depending on their kind and intensity, these events have a direct influence on the volume and type of users connecting on news websites, and thus indirectly on the internet. We use for this study the data gathered daily by the crawlers of the company Synthesio. This data provides the volume and type of daily publications (national or regional online newspapers, blog posts, videos, etc.). Events are then categorized and conceptualized in order to support forecasting. Proper categorization of events allows to infer the probable pattern of an event and anticipates scalability issues. We also present here the first contributions it may have in predicting internet audiences of the websites of the French TV channel TF1.


V.S.S.T.'2010, Colloque international, Veille Stratégique Scientifique & Technologique, Toulouse, Octobre 2010.