In omschrijvingen van gebak zitten allerlei kenmerken die nuttig zijn bij het classificeren van gebaksproducten ten behoeve van de CPI-berekening.
Populaties van artikelen zijn dynamisch. Zij hebben een eindige levensduur. En artikelen worden soms vervangen door andere, in een 'nieuw jasje' gestoken, en van een hogere prijs voorzien ('relaunch'). Voor prijsindexberekeningen is deze dynamiek een dilemma: men kan proberen om op het laagste niveau (EAN) prijsontwikkelingen te beschrijven. Maar dan moet men wel rekening houden met relaunches. Dat kan door dezelfde of soortgelijke artikelen aan elkaar te koppelen, en de prijsontwikkelingen in deze prijsketens te volgen. Maar dat is een ingewikkeld proces. Een andere optie is om niet op het laagste niveau de prijsontwikkelingen te volgen, maar op een wat hoger aggregatieniveau. Men vormt dan strata van artikelen binnen een groep van artikelen waarvan men de prijsontwikkeling volgt. Deze strata dient men te maken op basis van beschrijvingen die voor artikelen beschikbaar zijn, in scannerdata of op het web. Eén manier om dat te doen is door gebruik te maken van kenmerken die men aantreft in dergelijke beschrijvingen. Combinaties van deze kenmerken leveren dan de strata op die deze subgroepen voorstellen. In het onderhavige discussion paper wordt voor één specifieke artikelgroep, namelijk gebak van een Nederlandse winkelketen, nagegaan wat voor kenmerken nou precies aanwezig zijn in de beschrijvingen. Productbeschrijvingen kunnen sterk variëren, afhankelijk van de winkel die ze verkoopt en het product in kwestie. Wat voor de beschrijvingen van gebak, zoals die hier worden bestudeerd, opvalt is dat ze vaak samengestelde woorden bevatten. In veel gevallen bestaat een productbeschrijving uit één samengesteld woord. Vanwege dit specifieke karakter - een taalkundige eigenschap - is deze productgroep gekozen voor nader onderzoek. Niet omdat deze productgroep zelf van bijzonder belang zou zijn voor de consumentenprijsindex (CPI).