Atspausdinta iš Teisės aktų registro.
Rūšis:ĮsakymasPriėmimo data:2025-01-09Galiojanti suvestinė redakcija:Nėra
Registravimo duomenys: 2025-01-09 Nr. 2025-00207 Įstaigos suteiktas Nr.:DĮ-4Suvestinių redakcijų sąrašas pagal datą:Nėra
Galioja
Įsigalioja 2025-01-10
Priėmė:Valstybės duomenų agentūra
Pakeitimų projektai:Nėra
Ex post vertinimas:NėraPaskelbta:TAR, 2025-01-09, Nr. 207
Eurovoc terminai: Yra
Ryšys su ES teisės aktais:Nėra

 

VALSTYBĖS DUOMENŲ AGENTŪROS

GENERALINIS DIREKTORIUS

 

ĮSAKYMAS

DĖL Administracinių DUOMENŲ šaltinių kokybės VERTINIMO tvarkos aprašO PATVIRTINIMO

 

2025 m. sausio 9 d. Nr. DĮ-4

Vilnius

 

Siekdama užtikrinti, kad Valstybės duomenų agentūroje ir kitose oficialiąją statistiką tvarkančiose įstaigose administracinių šaltinių pagrindu rengiama statistika atitiktų Europos Sąjungos teisės aktuose nustatytus kokybės reikalavimus, ir vadovaudamasi 2021 m. vasario 9 d. Metodinės komisijos posėdžio protokolu Nr. DP-6:

1.  Tvirtinu Administracinių duomenų šaltinių kokybės vertinimo tvarkos aprašą (pridedama).

2.  Rekomenduoju kitoms oficialiąją statistiką tvarkančioms įstaigoms vadovautis Administracinių duomenų šaltinių kokybės vertinimo tvarkos aprašu, patvirtintu šio įsakymo 1 punktu.

3.  Pripažįstu netekusiu galios Lietuvos statistikos departamento generalinio direktoriaus 2021 m. vasario 12 d. įsakymą Nr. DĮ-053 „Dėl Administracinių duomenų šaltinių kokybės vertinimo tvarkos aprašo patvirtinimo“.

 

 

 

Generalinė direktorė                                                                                          Jūratė Petrauskienė

 

PATVIRTINTA

Valstybės duomenų agentūros

generalinio direktoriaus

2025 m. sausio 9 d. įsakymu Nr. DĮ-4

 

 

Administracinių DUOMENŲ šaltinių kokybės VERTINIMO tvarkos aprašas

 

I SKYRIUS

BENDROSIOS NUOSTATOS

 

1.    Siekiant mažinti respondentams tenkančią naštą ir optimaliai išnaudoti jau surinktus ir įvairiuose registruose, informacinėse sistemose bei administracinių duomenų bazėse saugomus administracinius duomenis, vis daugiau statistinių tyrimų Valstybės duomenų agentūroje (toliau – agentūra) atliekama administracinių šaltinių pagrindu.

2.    Agentūroje ir kitose oficialiąją statistiką tvarkančiose įstaigose (toliau – KOSI) rengiama ir vartotojams pateikiama statistinė informacija privalo atitikti Europos statistikos sistemos kokybės standartus. Kad statistinė informacija, t. y. viso statistinės informacijos rengimo proceso rezultatas, būtų kokybiška, visų pirma turi būti užtikrinta visų proceso dalių, įskaitant gaunamus administracinius duomenis (statistinės informacijos rengimo proceso įvesties) bei administracinių duomenų šaltinių pagrindu sudarytus populiacijos sąrašus, kokybė.

 

II SKYRIUS

Tikslas

 

3.    Administracinių duomenų šaltinių kokybės vertinimo tvarkos apraše (toliau – tvarkos aprašas) aprašomi kokybiniai ir kiekybiniai rodikliai, kuriais gali būti apibūdinta bei įvertinta administracinių duomenų bei jų pagrindu sudarytų populiacijos sąrašų kokybė.

4.    Tvarkos aprašas skirtas agentūros ir KOSI valstybės tarnautojams ir darbuotojams, dirbantiems pagal darbo sutartis, kurie dirba su administracinių šaltinių duomenimis bei jų kokybės vertinimu.

 

III SKYRIUS

Pagrindinės sąvokos

 

5.    Tvarkos apraše vartojamos sąvokos:

5.1. Administracinio šaltinio vienetas – administracinio šaltinio duomenų rinkinyje aprašomas objektas (įmonė, asmuo, ataskaita ir pan.).

5.2. Bazinis populiacijos sąrašo vienetas (angl. basic unit, toliau – bazinis vienetas) – mažiausias, nedalomas populiacijos sąrašo vienetas, pvz., asmuo.

5.3. Klasifikavimo (grupavimo) kintamasis – kintamasis, kuris įgyja kokio nors klasifikatoriaus (pvz., Ekonominės veiklos rūšių, Profesijų klasifikatoriaus ir pan.) arba kategorijų rinkinio (pvz., grupės pagal darbuotojų skaičių, pajamas, amžių, lytį) reikšmes.

5.4. Pagrindiniai kintamieji – vienas ar keli svarbiausi kintamieji administracinio šaltinio duomenų rinkinyje, turintys didžiausią svarbą rengiant statistinę informaciją.

5.5. Populiacijos sąrašas (angl. frame) – statistinio tyrimo populiacijos (toliau – tyrimo populiacijos) vienetų sąrašas, leidžiantis identifikuoti kiekvieną populiacijos vienetą. Populiacijos sąraše gali būti ir iš anksto turimi statistiniai duomenys apie tyrimo populiacijos vienetus. Iš populiacijos sąrašo yra renkama imtis, taip pat šis sąrašas naudojamas tyrimo populiacijos vienetams surašyti (pvz., Visuotinio gyventojų ir būstų surašymo metu). Populiacijos sąraše esanti papildoma informacija gali būti naudojama imties (ėmimo) planui sudaryti, pavyzdžiui, suskirstyti populiacijos sąrašo vienetus į sluoksnius ar lizdus ir pan.

5.6. Statistinės informacijos rengimo proceso įvestis (angl. input) – statistiniai tyrimo ir / ar administraciniai duomenys, kurie naudojami statistinei informacijai parengti, pritaikius agregavimo bei įverčių skaičiavimo metodus.

5.7. Sudėtinis populiacijos sąrašo vienetas (angl. composite unit, toliau – sudėtinis vienetas) – populiacijos sąrašo vienetas, kuris yra sudarytas iš keleto bazinių vienetų, pvz., namų ūkis, būstas.

 

IV SKYRIUS

ADMINISTRACINIŲ duomenų kokybės vertinimas

 

6.    Norint nusakyti administracinių duomenų kokybę, reikia įvertinti administracinį šaltinį kaip visumą:

6.1. pateikti bendrą informaciją apie administracinį šaltinį ir administracinių duomenų teikimo agentūrai arba KOSI procesą;

6.2. aprašyti administracinio šaltinio metaduomenis;

6.3. įvertinti administracinių duomenų tikslumą, suderinamumą, patikimumą bei kitas charakteristikas.

7.    Toliau pateikiamas sudarytas kokybės rodiklių sąrašas, atitinkantis ankstesnio punkto papunkčiuose išvardytus aspektus. Nurodyti kokybės rodikliai gali būti pritaikomi tiek viso administracinio šaltinio duomenų kokybei įvertinti, tiek vieno ar kelių administracinių šaltinių dalies, kuri yra aktuali ir naudojama rengiant konkrečią statistinę informaciją, t. y. statistinės informacijos rengimo proceso įvesties kokybei įvertinti. Santykiniai kokybės rodikliai įgyja reikšmes tarp 0 ir 1 (arba nuo 0 iki 100 proc., jei skaičiuojami procentine išraiška). Kuo rodiklio reikšmė artimesnė nuliui, tuo administracinio šaltinio kokybė yra geresnė.

 

 

ADMINISTRACINIS ŠALTINIS

 

 

Dimensija

 

Kokybės rodiklis

 

Aprašymas, skaičiavimo metodas

 

1.

 

Administracinių duomenų teikėjas

 

1.1.

 

Kontaktinė informacija

 

Administracinio šaltinio pavadinimas.

 

Administracinių duomenų teikėjo kontaktinė informacija (atstovo vardas, pavardė, telefono numeris, elektroninio pašto adresas).

 

Agentūros arba KOSI atstovo kontaktinė informacija (atstovo vardas, pavardė, telefono numeris, elektroninio pašto adresas).

 

1.2.

 

Tikslas

 

Nurodoma, kokiu tikslu (-ais) agentūroje arba KOSI naudojami administracinio šaltinio duomenys.

 

2.

 

Aktualumas

 

2.1.

 

Naudingumas

 

Administracinio šaltinio svarba agentūros arba KOSI tikslams (nurodant, ar šiuo metu šaltinis yra naudojamas).

 

2.2.

 

Numatomas panaudojimas

 

Išvardijami statistiniai tyrimai / statistikos darbai, kuriuose ateityje galima būtų panaudoti administracinio šaltinio duomenis, ir / arba jų skaičius.

 

2.3.

 

Respondentų našta

 

Aprašoma, kaip administracinio šaltinio panaudojimas padėjo sumažinti naštą respondentams. Nurodoma, kokiuose statistiniuose tyrimuose sumažintas imties dydis, klausimų / formuliarų skaičius ir pan.

 

3.

 

Konfidencialumas ir saugumas

 

3.1.

 

Teisinis pagrindas

 

Administracinio šaltinio teisinis pagrindas. Pateikiama nuoroda į administracinio šaltinio nuostatus.

 

3.2.

 

Konfidencialumas

 

Nurodoma, kokiais teisės aktais ir priemonėmis užtikrinama asmens ir kitų konfidencialių duomenų apsauga.

 

3.3.

 

Saugumas

 

Nurodomas administracinių duomenų teikimo agentūrai arba KOSI iš administracinių duomenų teikėjo būdas.

 

Nurodoma, ar reikalingas saugus kanalas administraciniams duomenims perduoti (kai duomenys pateikiami asmens / įmonės lygiu), ar ne (kai pateikiami suvestiniai duomenys).

 

4.

 

Administracinių duomenų gavimas

 

4.1.

 

Kaina

 

Nurodoma, ar yra mokama už administracinių duomenų gavimą.

 

4.2.

 

Administracinių duomenų teikimo sąlygos

 

Nurodoma, kur yra dokumentuotos duomenų teikimo sąlygos.

 

Nurodoma, kaip dažnai gaunami administraciniai duomenys. Jeigu administraciniai duomenys prieinami nuolatos, tai turėtų būti nurodyta.

 

4.3.

 

Administracinių duomenų atsilikimas

 

Skaičiuojamas rodiklis , kuris parodo, kokią procentinę dalį statistinės informacijos rengimo procese užima administracinių duomenų laukimas.

 

 

Čia:

 

– administracinių duomenų atsilikimas, proc.;

 

– laiko tarpas nuo ataskaitinio laikotarpio pabaigos iki administracinio šaltinio duomenų (galutinių) gavimo;

 

– laiko tarpas nuo ataskaitinio laikotarpio pabaigos iki statistinės informacijos paskelbimo.

 

Rodiklis skaičiuojamas tik pirmai informacijai paskelbti, bet ne patikslinti (revizijai).

 

Jei administraciniai duomenys yra gaunami nenutrūkstamu srautu, tai rodikliui skaičiuoti naudojama paskutinių administracinių duomenų, naudotų statistinei informacijai rengti, gavimo data.

 

Jeigu administraciniai duomenys yra gaunami prieš pasibaigiant ataskaitiniam laikotarpiui, rodiklio reikšmė prilyginama nuliui.

 

Jei statistinei informacijai rengti naudojamas daugiau nei vienas administracinis šaltinis, turėtų būti skaičiuojamas pasvertas vidurkis, atsižvelgiant į kiekvieno šaltinio svarbą galutinei statistinei informacijai.

 

4.4.

 

Administracinių duomenų vėlavimas

 

Nurodoma, po kiek dienų (valandų) praėjus nustatytam administracinių duomenų gavimo terminui administracinio šaltinio duomenys buvo gauti.

 

4.5.

 

Formatas

 

Nurodoma, kokiu formatu pateikiami administraciniai duomenys.

 

5.

 

Procedūros

 

5.1.

 

Administracinių duomenų surinkimas

 

Nurodoma, kokiomis ataskaitomis ar kitais būdais administraciniai duomenys yra surenkami. Nurodoma, jei tokia informacija nėra žinoma.

 

5.2.

 

Suplanuoti pokyčiai

 

Nurodoma, ar administracinių duomenų teikėjas informuoja agentūros arba KOSI atstovus apie planuojamus pasikeitimus (duomenų revizija, struktūros pokyčiai ir kiti).

 

Jei taip, nurodoma, kada ir kokiais būdais tai padaroma.

 

5.3.

 

Atgalinis atsakas

 

Nurodoma, ar agentūros arba KOSI atstovai informuoja administracinių duomenų teikėją apie problemas dėl administracinių duomenų šaltinio.

 

Kokiais atvejais informuoja (klaidos, administracinių duomenų vėlavimas, neteisingas klasifikavimas, gaunami ne visos apimties administraciniai duomenys, struktūros pokyčiai ir pan.)?

5.4.

Rizikos

Nurodoma statistinės informacijos neparengimo rizika, negavus administracinių duomenų. Rizika įvertinama pagal Valstybės duomenų agentūros rizikų valdymo tvarkos aprašą, patvirtintą agentūros generalinio direktoriaus 2023 m. kovo 30 d. įsakymu Nr. DĮ-80 „Dėl Valstybės duomenų agentūros rizikų valdymo tvarkos aprašo patvirtinimo“.

Kokių priemonių būtų imtasi statistinei informacijai parengti tokiu atveju?

 

 

METADUOMENYS

 

 

Dimensija

 

Kokybės rodiklis

 

Metodai

 

6.

 

Aiškumas

 

6.1.

 

Administracinio šaltinio vieneto apibrėžimas

 

Nurodoma, ar aiškiai suformuluotas administracinio šaltinio vieneto apibrėžimas:

 

0: apibrėžimas nenurodytas;

1: apibrėžimas neaiškus / nevienareikšmis;

2: apibrėžimas aiškus.

 

Apibrėžimas nurodomas.

 

6.2.

 

Klasifikavimo kintamųjų apibrėžimai

 

Nurodoma, ar aiškiai suformuluoti administraciniame šaltinyje esančių klasifikavimo kintamųjų apibrėžimai, ar naudojami žinomi klasifikatoriai:

 

0: apibrėžimai nenurodyti;

1: apibrėžimai neaiškūs / nevienareikšmiai;

2: apibrėžimai aiškūs.

 

6.3.

 

Pagrindinių kintamųjų apibrėžimai

 

Nurodoma, ar aiškiai suformuluoti administraciniame šaltinyje esančių pagrindinių kintamųjų apibrėžimai:

 

0: apibrėžimai nenurodyti;

1: apibrėžimai neaiškūs / nevienareikšmiai;

2: apibrėžimai aiškūs.

 

6.4.

 

Laiko dimensija

 

Nurodoma, ar aiškiai apibrėžtas ataskaitinis laikotarpis / data, kurią atspindi administraciniame šaltinyje esantys duomenys:

 

0: apibrėžimas nenurodytas;

1: apibrėžimas neaiškus / nevienareikšmis;

2: apibrėžimas aiškus.

 

Ataskaitinis laikotarpis / data nurodomi.

 

6.5.

 

Apibrėžimų pasikeitimai

 

Nurodoma, ar administracinių duomenų teikėjas pasidalina informacija su administracinių duomenų gavėju apie bet kurio apibrėžimo pasikeitimą:

 

0: nėra informacijos;

1: ne;

2: taip;

9: šiuo metu neaktualu, nebuvo apibrėžimų pasikeitimų.

 

Jei taip, nurodoma, kurie apibrėžimai keitėsi.

 

7.

 

Suderinamumas

 

7.1.

 

Populiacijos vieneto apibrėžimų suderinamumas

 

Nurodoma, kaip skiriasi administracinio šaltinio vienetų ir agentūros arba KOSI statistiniuose tyrimuose naudojamų populiacijos vienetų apibrėžimai:

 

0: nėra informacijos, trūksta apibrėžimų;

1: apibrėžimai skiriasi, neįmanoma suvienodinti / susieti;

2: apibrėžimai skiriasi, įmanoma suvienodinti / susieti;

3: apibrėžimai visiškai sutampa.

 

Jeigu yra skirtumų, pateikiami apibrėžimai ir nurodomi jų skirtumai.

 

7.2.

 

Klasifikavimo kintamųjų apibrėžimų suderinamumas

 

Nurodoma, kaip skiriasi administraciniame šaltinyje esančių ir agentūros arba KOSI statistiniuose tyrimuose naudojamų klasifikavimo kintamųjų apibrėžimai:

 

0: nėra informacijos, trūksta apibrėžimų;

1: apibrėžimai skiriasi, neįmanoma suvienodinti / susieti;

2: apibrėžimai skiriasi, įmanoma suvienodinti / susieti;

3: apibrėžimai visiškai sutampa.

 

Jeigu yra skirtumų, pateikiami apibrėžimai ir nurodomi jų skirtumai.

 

7.3.

 

Pagrindinių kintamųjų apibrėžimų suderinamumas

 

Nurodoma, kaip skiriasi administraciniame šaltinyje esančių ir agentūros arba KOSI statistiniuose tyrimuose naudojamų pagrindinių kintamųjų apibrėžimai:

 

1: apibrėžimai skiriasi, neįmanoma suvienodinti / susieti;

2: apibrėžimai skiriasi, įmanoma suvienodinti / susieti;

3: apibrėžimai visiškai sutampa.

 

Jeigu yra skirtumų, pateikiami apibrėžimai ir nurodomi jų skirtumai.

 

7.4.

 

Laiko dimensijų skirtumai

 

Nurodoma, kaip skiriasi administraciniame šaltinyje ir agentūros arba KOSI statistiniuose tyrimuose naudojami ataskaitiniai laikotarpiai / datos:

 

1: ataskaitiniai laikotarpiai / datos skiriasi, neįmanoma suvienodinti / susieti;

2: ataskaitiniai laikotarpiai / datos skiriasi, įmanoma suvienodinti / susieti;

3: ataskaitiniai laikotarpiai / datos visiškai sutampa.

 

Jeigu yra skirtumų, pateikiami apibrėžimai ir nurodomi jų skirtumai.

 

8.

 

Pirminiai raktai

 

8.1.

 

Identifikacinis kintamasis

 

Nurodoma, ar administraciniame šaltinyje yra unikalus pirminis raktas:

 

0: nėra informacijos;

1: nėra;

2: yra (jis / jie nurodomas / -i).

 

8.2.

 

Unikali kintamųjų kombinacija

 

Nurodoma, ar egzistuoja administracinio šaltinio kintamųjų kombinacija, pagal kurią vienareikšmiškai galima identifikuoti kiekvieną populiacijos vienetą:

 

0: nėra informacijos;

1: nėra;

2: yra (kombinacija nurodoma);

9: neaktualu.

 

9.

 

Administracinių duomenų teikėjo darbas su administraciniais duomenimis

 

9.1.

 

Administracinių duomenų tikrinimas

 

Nurodoma, ar administracinių duomenų teikėjas atlieka administracinio šaltinio vienetų patikrinimus:

 

0: nėra informacijos;

1: ne;

2: taip (nurodyti, kokius).

 

Nurodoma, ar administracinių duomenų teikėjas atlieka administracinio šaltinio kintamųjų patikrinimus (pvz., galimų reikšmių rėžiai):

 

0: nėra informacijos;

1: ne;

2: taip (nurodyti kokius).

 

Nurodoma, ar administracinių duomenų teikėjas atlieka administraciniame šaltinyje esančių kintamųjų tarpusavio ryšių (loginių, aritmetinių ir kitų) patikrinimus:

 

0: nėra informacijos;

1: ne;

2: taip (nurodyti kokius).

 

Nurodoma, ar administracinių duomenų teikėjas tikrina administraciniame šaltinyje esančių kintamųjų išsiskiriančias reikšmes:

 

0: nėra informacijos;

1: ne;

2: taip (nurodyti kokias).

 

9.2.

 

Administracinių duomenų redagavimas

 

Nurodoma, ar administracinių duomenų teikėjas atlieka administracinių duomenų redagavimą, įrašymą, numatytosios reikšmės įrašymą ir kitus administracinių duomenų pakeitimus:

 

0: nėra informacijos;

1: ne;

2: taip (nurodyti kokius).

 

Jei atliekami administracinių duomenų pakeitimai, ar administraciniame šaltinyje yra nurodyta, kuri reikšmė buvo pakeista?

 

1: ne;

2: taip.

 

Jei atliekami administracinių duomenų pakeitimai, ar administraciniame šaltinyje yra nurodyta pradinė, neredaguota reikšmė?

 

1: ne;

2: taip.

 

 

ADMINISTRACINIŲ DUOMENŲ TIKSLUMAS

 

 

Dimensija

 

Kokybės rodiklis

 

Metodai

 

10.

 

Techniniai patikrinimai

 

10.1.

 

Administracinių duomenų atitiktis metaduomenims

 

Nurodoma, ar gauti administraciniai duomenys yra tokie, kaip aprašyta metaduomenyse:

 

1: ne (nurodomi neatitikimai);

2: taip.

 

10.2.

 

Įrašų skaičius ir jo pokytis

 

Nurodomas paskutinio gauto ataskaitinio laikotarpio / datos įrašų skaičius ir jų pokytis.

 

Įrašų skaičiaus pokytis parodo, kaip pasikeitė įrašų skaičius administraciniame šaltinyje lyginant dvi paskutines administracinių duomenų gavimo iš administracinių duomenų teikėjo datas (pagal administracinių duomenų gavimo periodiškumą). Rodiklis padeda sekti, ar administraciniai duomenys buvo atnaujinti, taip pat, ar gauti ne visos apimties administraciniai duomenys.

 

 

Čia:

 

– įrašų skaičiaus pokytis;

 

– įrašų skaičius paskutinę administracinių duomenų gavimo iš administracinių duomenų teikėjo dieną;

 

– įrašų skaičius priešpaskutinę administracinių duomenų gavimo iš administracinių duomenų teikėjo dieną.

 

Rodiklio reikšmė neturėtų smarkiai skirtis nuo vieneto.

 

10.3.

 

Dubliai

 

Nurodomas besidubliuojančių įrašų (eilučių) skaičius ir bendro įrašų skaičiaus dalis .

 

Jei administracinio šaltinio duomenų rinkinyje yra keli vienodi įrašai arba tam pačiam populiacijos vienetui priskirti keli skirtingi įrašai, nors turėtų būti tik vienas, tai besidubliuojančiu įrašu laikomas perteklinis, papildomas įrašas, kuris turėtų būti šalinamas iš administracinio šaltinio duomenų rinkinio. Pavyzdžiui, jei administracinio šaltinio duomenų rinkinyje yra trys eilutės, kuriose aprašomas tas pats vienetas, tai besidubliuojančiais būtų laikomi du įrašai (toliau aprašytoje formulėje dydis  lygus 2).

 

 

Čia:

 

– besidubliuojančių įrašų dalis, proc.;

 

– besidubliuojančių įrašų skaičius;

 

– visų įrašų skaičius.

 

11.

 

Aprėptis

 

11.1.

 

Perteklinė aprėptis

 

Perteklinė aprėptis (angl. overcoverage) parodo, kokia dalis administraciniame šaltinyje esančių vienetų nepriklauso tyrimo populiacijai.

 

 

Čia:

 

– perteklinė aprėptis, proc.;

 

– administraciniame šaltinyje esančių vienetų, kurie nepriklauso tyrimo populiacijai, skaičius;

 

– visų tyrimo populiacijos vienetų skaičius.

 

Rodiklis gali būti skaičiuojamas pasvertas (pagal įmonės pajamas, darbuotojų skaičių ar pan.), atsižvelgiant į vieneto svarbą (%) galutinei statistinei informacijai.

 

Perteklinė aprėptis gali būti skaičiuojama kiekvienam statistinės informacijos skelbimui (pirminiams, patikslintiems, revizuotiems rodikliams).

 

11.2.

 

Nepakankama aprėptis

 

Nepakankama aprėptis (angl. undercoverage) parodo, kokia dalis tyrimo populiacijos vienetų neįtraukta į administracinį šaltinį.

 

 

Čia:

 

– nepakankama aprėptis, proc.;

 

– statistinei informacijai rengti reikalingų populiacijos vienetų, kurių nėra administraciniame šaltinyje, skaičius;

 

– visų statistinei informacijai rengti naudojamų administracinio šaltinio vienetų skaičius.

 

Rodiklis gali būti skaičiuojamas pasvertas (pagal įmonės pajamas, darbuotojų skaičių ar pan.), atsižvelgiant į vieneto svarbą (%) galutinei statistinei informacijai.

 

Nepakankama aprėptis gali būti skaičiuojama kiekvieną kartą skelbiant statistinę informaciją (pirminius, patikslintus, revizuotus rodiklius).

 

12.

 

Trūkstamos reikšmės

 

12.1.

 

Vienetai, kuriems trūksta visų kintamųjų reikšmių

 

Skaičiuojamas rodiklis , kuris parodo, kiek administraciniame šaltinyje esančių vienetų neturi įrašytos nė vienos kintamojo reikšmės (angl. unit non-response).

 

 

Čia:

 

– kokybės rodiklio reikšmė, proc.;

 

– statistinei informacijai rengti naudojamų administracinio šaltinio vienetų, kurių nė vieno kintamojo reikšmė nežinoma, skaičius;

 

– visų statistinei informacijai rengti naudojamų administracinio šaltinio vienetų, skaičius.

 

Rodiklis gali būti skaičiuojamas pasvertas (pagal įmonės pajamas, darbuotojų skaičių ar pan.), atsižvelgiant į vieneto svarbą (%) galutinei statistinei informacijai.

 

12.2.

 

Pagrindinių kintamųjų trūkstamos reikšmės

 

Skaičiuojamas rodiklis , kuris parodo pagrindinių kintamųjų trūkstamų reikšmių procentinę dalį (angl. item non-response).

 

 

Čia:

 

– kintamojo X trūkstamų reikšmių dalis, proc.;

 

– statistinei informacijai rengti naudojamų administracinio šaltinio vienetų, kurių kintamojo X reikšmė yra nežinoma, skaičius;

 

– visų statistinei informacijai rengti naudojamų administracinio šaltinio vienetų, kurių yra fiksuojamos kintamojo X reikšmės, skaičius.

 

Rodiklis gali būti skaičiuojamas pasvertas (pagal įmonės pajamas, darbuotojų skaičių ar pan.), atsižvelgiant į vieneto svarbą (%) galutinei statistinei informacijai.

 

13.

 

Revizija

 

 

 

Administracinių duomenų revizijos dydis

 

Administracinio šaltinio duomenų revizijos dydis parodo, kaip smarkiai skiriasi kintamojo reikšmė pradiniame ir galutiniame administracinio šaltinio duomenų rinkinyje. Rodiklis padeda suprasti, kaip skirtųsi statistinė informacija, parengta naudojant pirminius ir patikslintus administracinius duomenis.

 

 

Čia:

 

– kokybės rodiklio reikšmė, proc.;

 

– kintamojo X galutinė reikšmė vienetui ;

 

– kintamojo X pradinė reikšmė vienetui ;

 

– visai statistinei informacijai rengti naudojamų administracinio šaltinio vienetų skaičius.

 

Jei turima vienintelė administracinio šaltinio duomenų versija ir administraciniai duomenys nėra atnaujinami, šis rodiklis nereikšmingas.

 

Rodiklis gali būti skaičiuojamas pasvertas (pagal įmonės pajamas, darbuotojų skaičių ar pan.), atsižvelgiant į vieneto svarbą (%) galutinei statistinei informacijai.

 

14.

 

Administracinių duomenų redagavimas

 

14.1.

 

Neteisingo klasifikavimo lygis

 

Neteisingo klasifikavimo lygis (angl. misclassification rate) parodo, kokiai daliai vienetų administraciniame šaltinyje yra neteisingai priskirta naudojamo klasifikatoriaus (grupavimo) reikšmė. Yra laikoma, kad viename iš turimų administracinių šaltinių vienetams priskirtos klasifikatoriaus (grupavimo) reikšmės yra žinomos ir teisingos (pvz., Įmonių registre įmonėms priskirtas veiklos kodas pagal Ekonominės veiklos rūšių klasifikatorių (EVRK 2.1 red.), patvirtintą agentūros generalinio direktoriaus 2024 m. gruodžio 3 d. įsakymu Nr. 266 „Dėl Ekonominės veiklos rūšių klasifikatoriaus (EVRK 2.1 red.) patvirtinimo“, (toliau – EVRK 2.1 red.).

 

 

Čia:

 

– neteisingo klasifikavimo lygis, proc.;

 

– statistinei informacijai rengti naudojamų administracinio šaltinio vienetų, kuriems priskirta neteisinga klasifikatoriaus (grupavimo) reikšmė, skaičius;

 

– visų statistinei informacijai rengti naudojamų administracinio šaltinio vienetų skaičius.

 

Klasifikavimo (grupavimo) lygmuo turėtų sutapti su lygmeniu, kuriame rengiama statistinė informacija. Pvz., jei statistinė informacija rengiama trijų ženklų lygmeniu pagal EVRK (2.1 red.), tai klasifikavimo tikslumas taip pat turėtų būti skaičiuojamas trijų ženklų lygmeniu.

 

Rodiklis gali būti skaičiuojamas pasvertas (pagal įmonės pajamas, darbuotojų skaičių ar pan.), atsižvelgiant į vieneto svarbą (%) galutinei statistinei informacijai.

 

Jeigu yra atliekamas statistinis tyrimas, norint patikrinti neteisingo klasifikavimo lygį, tai statistinio tyrimo metu apskaičiuotas rodiklis turėtų būti pateikiamas kartu su tai nurodančia specialia žyma.

 

 

 

14.2.

 

Įrašų, netenkinančių tam tikrų tikrinimo ir tinkamumo patvirtinimo taisyklių, dalis

 

Skaičiuojant šį rodiklį atsižvelgiama į įvairius patikrinimus – automatinius ar rankinius, išskirtis, palyginimus su kitais šaltiniais (administraciniais ar statistinių tyrimų duomenimis), internete esančia informacija, modelius ir pan., dėl kurių statistikos skyrių specialistai pažymi šį įrašą kaip nepatikimą ar įtartiną. Tačiau taisyklės netenkinimas nereiškia, kad įrašo reikšmė yra klaidinga.

 

 

Čia:

 

– kokybės rodiklio reikšmė, proc.;

 

– statistinei informacijai rengti naudojamų administracinio šaltinio įrašų, netenkinančių įvairių tikrinimo ir tinkamumo patvirtinimo taisyklių, skaičius;

 

– bendras patikrintų ir statistinei informacijai rengti naudojamų administracinio šaltinio įrašų skaičius.

 

Jeigu administracinių duomenų tikrinimas ir tinkamumo patvirtinimas atliekamas automatiškai ir programinė įranga, atliekanti patikrinimus, nesaugo informacijos apie tikrinimo ir tinkamumo patvirtinimo taisyklių netenkinančius įrašus, turėtų būti pateikiamas paaiškinimas.

 

Rodiklis gali būti skaičiuojamas pasvertas (pagal įmonės pajamas, darbuotojų skaičių ar pan.), atsižvelgiant į vieneto svarbą (%) galutinei statistinei informacijai.

 

Taip pat turėtų būti nurodoma, kokia administracinių duomenų dalis buvo tikrinta, kokios tikrinimo ir tinkamumo patvirtinimo taisyklės taikytos.

 

14.3.

 

Redaguotų klaidingų reikšmių dalis

 

Skaičiuojamas rodiklis , kuris parodo, kokia dalis kintamųjų reikšmių buvo redaguota, nes buvo klaidingos ar netikslios.

 

Skaičiuojant šį rodiklį atsižvelgiama tik į statistikos skyrių specialistų atliktą redagavimą. Bet kokie administracinių duomenų pakeitimai, padaryti prieš gaunant administracinius duomenis, nėra įtraukiami.

 

 

Čia:

 

– redaguotų klaidingų ar netikslių kintamųjų reikšmių dalis, proc.;

 

– redaguotų klaidingų ar netikslių administracinio šaltinio kintamųjų reikšmių skaičius;

 

– visų administraciniame šaltinyje esančių ir statistinei informacijai rengti naudojamų kintamųjų reikšmių skaičius.

 

Rodiklis gali būti skaičiuojamas pasvertas (pagal įmonės pajamas, darbuotojų skaičių ar pan.), atsižvelgiant į vieneto svarbą (%) galutinei statistinei informacijai.

 

14.4.

 

Dėl išskirčių redaguotų reikšmių dalis

 

Skaičiuojamas rodiklis , kuris parodo, kokia dalis kintamųjų reikšmių buvo redaguota, nes yra išsiskiriančios.

 

Skaičiuojant šį rodiklį atsižvelgiama tik į statistikos skyrių specialistų atliktą redagavimą. Bet kokie administracinių duomenų pakeitimai, padaryti prieš gaunant administracinius duomenis, nėra įtraukiami.

 

 

Čia:

 

– redaguotų išsiskiriančių kintamųjų reikšmių dalis, proc.;

 

– redaguotų išsiskiriančių administracinio šaltinio kintamųjų reikšmių skaičius;

 

– visų administraciniame šaltinyje esančių ir statistinei informacijai rengti naudojamų kintamųjų reikšmių skaičius.

 

Rodiklis gali būti skaičiuojamas pasvertas (pagal įmonės pajamas, darbuotojų skaičių ar pan.), atsižvelgiant į vieneto svarbą (%) galutinei statistinei informacijai.

 

14.5.

 

Įrašytų reikšmių dalis

 

Skaičiuojamas rodiklis , kuris parodo statistikos skyrių specialistų įrašytų trūkstamų ar nepatikimų reikšmių dalį.

 

 

Čia:

 

– įrašytų reikšmių dalis, proc.;

 

– įrašytų administracinio šaltinio kintamųjų reikšmių skaičius;

 

– visų administraciniame šaltinyje esančių, statistinei informacijai rengti naudojamų reikšmių skaičius.

 

Rodiklis gali būti skaičiuojamas pasvertas (pagal įmonės pajamas, darbuotojų skaičių ar pan.), atsižvelgiant į įrašytos reikšmės svarbą (%) galutinei statistinei informacijai.

 

15.

 

Tikslumas

 

 

 

Vidutinė kvadratinė paklaida

 

Skaičiuojama pagrindinių kiekybinių kintamųjų vidutinė kvadratinė paklaida MSE:

 

 

Čia:

 

Nvisų administraciniame šaltinyje esančių, statistinei informacijai rengti naudojamų vienetų / įrašų skaičius;

 

-ojo vieneto / įrašo kintamojo X reikšmė;

 

– kintamojo X reikšmių aritmetinis vidurkis.

 

16.

 

Suderinamumas

 

16.1.

 

Bendrų vienetų dalis dviejuose ar daugiau šaltinių

 

Skaičiuojamas rodiklis .

 

 

Čia:

 

– kokybės rodiklis, proc.;

 

– statistinei informacijai rengti naudojamų vienetų, bendrų dviem administraciniams šaltiniams, skaičius;

 

– visų administraciniame šaltinyje esančių statistinei informacijai rengti naudojamų unikalių vienetų skaičius. Sąvoka „unikalus vienetas“ reiškia, kad administracinio šaltinio vienetas vardiklyje turi būti susumuojamas tik vieną kartą, net jei yra randamas keliuose skirtinguose administraciniuose šaltiniuose.

 

Turėtų būti atsižvelgiama tik į administracinio šaltinio vienetus, kurie yra svarbūs rengiant statistinę informaciją. Rodiklis turėtų būti skaičiuojamas atskirai kiekvienam kintamajam kiekvienai administracinių šaltinių porai, o tada agreguojamas.

 

Jei naudojamas tik vienas administracinis šaltinis, tai šis rodiklis yra nereikšmingas.

 

Rodiklis gali būti skaičiuojamas pasvertas (pagal įmonės pajamas, darbuotojų skaičių ar pan.), atsižvelgiant į vieneto svarbą (%) galutinei statistinei informacijai.

 

16.2.

 

Administracinio šaltinio vienetų, kurie turi būti pakoreguoti, kad būtų sukurtas statistinis vienetas, dalis

 

Skaičiuojamas rodiklis .

 

 

Čia:

 

– administracinio šaltinio vienetų, kurie turi būti pakoreguoti, kad būtų sukurtas statistinis vienetas, dalis;

 

– administracinio šaltinio vienetų, kurie turi būti pakoreguoti, kad būtų sukurtas statistinis vienetas, skaičius. Tokių vienetų pavyzdys – įmonių grupės, kurios turi būti išskaidytos į įmones, kad būtų galima naudoti jų administracinius duomenis;

 

– administracinio šaltinio vienetų, kurie atitinka statistinio vieneto apibrėžimą, skaičius.

 

 

 

17.

 

Palyginamumas

 

 

 

Pokytis

 

Statistinio įverčio / rodiklio pokytis , kai pereinama nuo statistinio tyrimo duomenimis paremtos prie administraciniais duomenimis paremtos statistinės informacijos.

 

Rodiklis skaičiuojamas tik vieną kartą kiekvienam statistinio tyrimo kintamajam.

 

 

Čia:

 

– kokybės rodiklis, proc.;

 

– statistinis įvertis / rodiklis, apskaičiuotas naudojant administracinių šaltinių duomenis;

 

– statistinis įvertis / rodiklis, apskaičiuotas naudojant statistinio tyrimo duomenis.

 

Pastaba: statistiniai įverčiai / rodikliai  ir  turi atitikti tą patį ataskaitinį laikotarpį ar datą.

 

 

V SKYRIUS

ADMINISTRACINIŲ ŠALTINIŲ PAGRINDU SUDARYTO Populiacijos sąrašo kokybės vertinimas

 

8.    Administracinių šaltinių pagrindu sudaryti populiacijos sąrašai gali būti naudojami populiacijos vienetų imtims išrinkti, ištisiniams statistiniams tyrimams (surašymams) atlikti ar tiesiogiai panaudoti kaip statistinių duomenų įvestis statistinei informacijai rengti.

9.    Populiacijos sąrašo aprėpties ir klasifikavimo klaidos, netiksli populiacijos vienetų kontaktinė informacija ir neteisingas populiacijos vienetų susiejimas gali turėti tiesioginės įtakos galutinės statistinės informacijos kokybei. Lentelėje išvardyti kokybės rodikliai, kurie apibūdina galimas klaidas populiacijos sąraše. Išsamus kokybės rodiklių aprašymas ir skaičiavimo būdai aprašyti tolesniuose tvarkos aprašo punktuose.

 

 

Klaidos rūšis

 

Kokybės rodiklis

 

1.

 

Aprėpties klaida

 

1.1.

 

Nepakankama populiacijos sąrašo aprėptis, atsiradusi dėl klaidų ir netikslumų populiacijos sąraše

 

1.2.

 

Tikslinė nepakankama populiacijos sąrašo aprėptis

 

1.3.

 

Perteklinė populiacijos sąrašo aprėptis

 

1.4.

 

Besidubliuojančių populiacijos sąrašo vienetų dalis

 

2.

 

Klasifikavimo klaida

 

 

 

Neteisingai sričiai priskirtų populiacijos sąrašo vienetų dalis

 

3.

 

Susiejimo klaida

 

3.1.

 

Priskyrimo paklaida

 

3.2.

 

Vieneto paklaida

 

4.

 

Klaidinga kontaktinė informacija[1]

 

 

 

Kontaktų paklaida

 

5.

 

Klaidingos kintamųjų reikšmės

 

 

 

Reikšmės paklaida

 

10.  Įvedami žymėjimai:

 

, ...,  – tyrimo populiacijos ar jos sąrašo srities (angl. domain) numeris;

 

, ...,  – vienetų, priklausančių atitinkamoms tyrimo populiacijos ir populiacijos sąrašo sritims, skaičius;

 

, ...,  – tyrimo populiacijai nepriklausančių, bet klaidingai į populiacijos sąrašą įtrauktų vienetų skaičius populiacijos sąrašo srityse 1, ..., H (perteklinė aprėptis);

 

, ...,  – populiacijos sąrašo srityse 1, ..., H esančių besidubliuojančių vienetų skaičius. Jei populiacijos sąraše yra keli vienodi įrašai arba tam pačiam populiacijos vienetui priskirti keli skirtingi įrašai, nors turėtų būti tik vienas, tai besidubliuojančiu vienetu laikomas perteklinis, papildomas vienetas, kurio duomenys turėtų būti šalinami iš populiacijos sąrašo. Pavyzdžiui, jei populiacijos sąraše yra trys eilutės, kuriose aprašomas tas pats vienetas, tai besidubliuojančiais būtų laikomi du įrašai.

 

, ...,  – tyrimo populiacijai priklausančių, bet populiacijos sąraše nesančių vienetų skaičius populiacijos srityse 1, ..., H (nepakankama aprėptis);

 

, ...,  – tyrimo populiacijai priklausančių, bet į populiacijos sąrašą tikslingai neįtrauktų vienetų skaičius populiacijos srityse 1, ..., H (tikslinė nepakankama aprėptis);

 

– bendras populiacijos dydis.

 

 

Tyrimo populiacijos sritis

 

Populiacijos sąrašo sritis

 

Trūkstami vienetai (nepakankama aprėptis dėl klaidos)

 

Neįtraukti vienetai (tikslinė nepakankama aprėptis)

 

1

 

2

 

...

 

H

 

 

 

 

 

1

 

 

 

 

 

 

 

 

...

 

 

 

 

 

 

 

 

 

 

 

 

 

H

 

 

 

 

 

 

 

 

Klaidingai populiacijos sąraše esantys vienetai (perteklinė aprėptis)

 

 

 

 

 

 

 

 

 

 

Besidubliuojantys vienetai

 

 

 

 

 

 

 

 

 

 

11Aprėpties ir klasifikavimo klaidas apibūdinantys kokybės rodikliai:

11.1.    Nepakankama populiacijos sąrašo aprėptis, atsiradusi dėl klaidų ir netikslumų populiacijos sąraše (angl. error undercoverage) – vienetų, kurie priklauso tyrimo populiacijai, tačiau nėra įtraukti į populiacijos sąrašą, dalis:

 

 

11.2.    Tikslinė nepakankama populiacijos sąrašo aprėptis (angl. design undercoverage) – vienetų, kurie dėl įvairių priežasčių tikslingai buvo neįtraukti į populiacijos sąrašą (pvz., gyvena sunkiai pasiekiamoje vietovėje), dalis:

 

 

11.3.    Perteklinė populiacijos sąrašo aprėptis (angl. error overcoverage) – vienetų, kurie nepriklauso tyrimo populiacijai, bet yra įtraukti į populiacijos sąrašą, dalis:

 

 

11.4.    Besidubliuojančių populiacijos sąrašo vienetų dalis:

 

 

11.5.    Neteisingai sričiai priskirtų vienetų dalis (angl. domain misclassification) – populiacijos vienetų, kurie populiacijos sąraše priskirti neteisingai sričiai, dalis. Rodiklis parodo nepakankamą aprėptį vienose srityse ir perteklinę aprėptį kitose srityse. Neteisingas priskyrimas sričiai atsiranda dėl populiacijos sąrašui sudaryti naudojamos neteisingos papildomos informacijos:

 

 

12.  Įvedami žymėjimai:

 

– bazinių vienetų skaičius populiacijos sąraše;

 

– sudėtinių vienetų skaičius populiacijos sąraše;

 

, ...,  – bazinių vienetų klasifikacijos numeris;

 

, ...,  – sudėtinių vienetų klasifikacijos numeris;

 

i-tosios klasės (srities) bazinių vienetų, kurie yra priskirti j-tosios klasės (srities) sudėtiniam vienetui, skaičius;

 

j-tosios klasės (srities) sudėtinių vienetų, kuriems priskirti i-tosios klasės (srities) baziniai vienetai, skaičius;

 

i-tosios klasės (srities) bazinių vienetų, kurie yra klaidingai priskirti j-tosios klasės (srities) sudėtiniam vienetui, skaičius;

 

i-tosios klasės (srities) bazinių vienetų, kuriems priskirta neteisinga kontaktinė informacija arba tokios informacijos iš viso nėra, skaičius;

 

i-tosios klasės (srities) bazinių vienetų, kuriems priskirta neteisinga k-tojo kintamojo reikšmė (arba ši reikšmė nežinoma), skaičius.

 

 

Bazinių vienetų klasifikavimas (sritys)

 

Sudėtinių vienetų klasifikavimas (sritys)

 

Bazinių vienetų skaičius

 

1

 

2

 

...

 

H

 

1

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

...

 

 

 

 

 

 

 

 

 

 

 

G

 

 

 

 

 

 

 

Sudėtinių vienetų skaičius

 

 

 

 

 

 

 

 

13.  Susiejimo, klaidingos kontaktinės informacijos ir klaidingų kintamųjų reikšmių klaidas apibūdinantys kokybės rodikliai:

13.1.    Priskyrimo paklaida (angl. alignment error) - bazinių vienetų, neteisingai priskirtų sudėtiniams vienetams, dalis:

 

 

13.2.    Vieneto paklaida (angl. unit error) - neteisingai sudarytų sudėtinių vienetų dalis:

 

 

13.3.    Kontaktų paklaida (angl. contact error) – bazinių vienetų, kurių kontaktinė informacija yra neteisinga arba tokios informacijos išvis nėra, dalis:

 

 

Vietoj šio kokybės rodiklio galima skaičiuoti tris atskirus rodiklius atsižvelgiant į tai, ar kontaktinė informacija yra teisinga, netinkama naudoti ar trūkstama.

13.4.    Reikšmės paklaida (angl. value error) – vidutiniškai parodo, kokios dalies bazinių vienetų populiacijos sąraše esančių  kintamųjų (suteikiančių papildomos informacijos arba tiesiogiai naudojamų statistinei informacijai rengti) reikšmė yra neteisinga arba nežinoma:

 

 

14.  Apibendrinti rodikliai:

14.1.    Apibendrintas kokybės rodiklis  skaičiuojamas kaip pasverta anksčiau aprašytų rodiklių suma:

 

 

Čia  raide pažymėti svoriai, kurių suma lygi vienetui.

14.1.1. Kadangi kiekvienas iš išvardytų rodiklių gali įgyti reikšmes tarp nulio ir vieneto, tai ir apibendrintas rodiklis  įgis šio diapazono reikšmes. Kuo apibendrinto rodiklio reikšmė artimesnė nuliui, tuo populiacijos sąrašas yra kokybiškesnis.

14.1.2. Svorių kiekvienai komponentei pasirinkimas turi didelę įtaką apibrėžiant kiekvieno rodiklio svarbą. Vienodų svorių parinkimas nėra tinkamas kiekvienam atvejui. Svorių pasirinkimą turi nulemti ir populiacijos sąrašo naudojimo tikslas, pvz., jei sąrašas bus naudojamas ne imčiai išrinkti, o kitu tikslu (tiesiogiai rengti statistinę informaciją ar pan.), tai kontaktų paklaidos svoris  turėtų būti lygus nuliui. Taip pat svoris gali būti prilygintas nuliui dėl kai kurių praktinių priežasčių, pvz., kai nėra pakankamai informacijos apskaičiuoti kurį nors kokybės rodiklį.

14.2.    Galima skaičiuoti supaprastintą apibendrintą rodiklį, sujungiant tik aprėpties kokybės rodiklius. Pagal 14.1.2 papunktyje aprašytą metodą likusių rodiklių svoriai prilyginami nuliui:

 

 

14.3.    Kadangi dažnu atveju rodiklį  galima apskaičiuoti tik turint papildomos informacijos (atlikus statistinį tyrimą arba naudojant kitus duomenų šaltinius, nei buvo naudojama populiacijos sąrašui sudaryti), galima dar labiau supaprastinti apibendrintą kokybės rodiklį, paliekant tik tris komponentes:

 

 

14.4.    Reikia atkreipti dėmesį, kad aprašytieji apibendrinti rodikliai neleidžia padaryti jokių išvadų apie tai, kokia dalis populiacijos sąrašo vienetų neturi jokių klaidų.

14.5.    Bazinių vienetų, turinčių kurios nors rūšies klaidą, dalis:

 

 

Čia  žymi bazinių vienetų, neturinčių jokių rūšių klaidų, skaičių.

 

VI SKYRIUS

nAUDOTOS LITERATŪROS SĄRAŠAS

 

15Checklist for evaluating the quality of input data (08/2016),

https://cros.ec.europa.eu/group/31/files/641/download.

16Quality Guidelines for Frames in Social Statistics (09/2019),

https://cros.ec.europa.eu/group/31/files/448/download.

17Quality Guidelines for Multisource Statistics (10/2019),

https://cros.ec.europa.eu/group/31/files/563/download.

18Checklist for the Quality evaluation of Administrative Data Sources, Statistics Netherlands, 2009.

https://ec.europa.eu/eurostat/documents/64157/4374310/45-Checklist-quality-evaluation-administrative-data-sources-2009.pdf/24ffb3dd-5509-4f7e-9683-4477be82ee60.



[1] Kontaktinė informacija – bet kokia informacija, padedanti susisiekti su populiacijos vienetu, t. y. gyvenamosios vietos adresas, telefono numeris, elektroninio pašto adresas.