Rūšis: | Įsakymas | Priėmimo data: | 2025-01-09 | Galiojanti suvestinė redakcija: | Nėra | ||
Registravimo duomenys: | 2025-01-09 Nr. 2025-00207 | Įstaigos suteiktas Nr.: | DĮ-4 | Suvestinių redakcijų sąrašas pagal datą: | Nėra | ||
Galioja | Įsigalioja 2025-01-10 | Priėmė: | Valstybės duomenų agentūra | Pakeitimų projektai: | Nėra | ||
Ex post vertinimas: | Nėra | Paskelbta: | TAR, 2025-01-09, Nr. 207 | Eurovoc terminai: | Yra | ||
Ryšys su ES teisės aktais: | Nėra |
VALSTYBĖS DUOMENŲ AGENTŪROS
GENERALINIS DIREKTORIUS
ĮSAKYMAS
DĖL Administracinių DUOMENŲ šaltinių kokybės VERTINIMO tvarkos aprašO PATVIRTINIMO
2025 m. sausio 9 d. Nr. DĮ-4
Vilnius
Siekdama užtikrinti, kad Valstybės duomenų agentūroje ir kitose oficialiąją statistiką tvarkančiose įstaigose administracinių šaltinių pagrindu rengiama statistika atitiktų Europos Sąjungos teisės aktuose nustatytus kokybės reikalavimus, ir vadovaudamasi 2021 m. vasario 9 d. Metodinės komisijos posėdžio protokolu Nr. DP-6:
2. Rekomenduoju kitoms oficialiąją statistiką tvarkančioms įstaigoms vadovautis Administracinių duomenų šaltinių kokybės vertinimo tvarkos aprašu, patvirtintu šio įsakymo 1 punktu.
3. Pripažįstu netekusiu galios Lietuvos statistikos departamento generalinio direktoriaus 2021 m. vasario 12 d. įsakymą Nr. DĮ-053 „Dėl Administracinių duomenų šaltinių kokybės vertinimo tvarkos aprašo patvirtinimo“.
PATVIRTINTA
Valstybės duomenų agentūros
generalinio direktoriaus
2025 m. sausio 9 d. įsakymu Nr. DĮ-4
Administracinių DUOMENŲ šaltinių kokybės VERTINIMO tvarkos aprašas
I SKYRIUS
BENDROSIOS NUOSTATOS
1. Siekiant mažinti respondentams tenkančią naštą ir optimaliai išnaudoti jau surinktus ir įvairiuose registruose, informacinėse sistemose bei administracinių duomenų bazėse saugomus administracinius duomenis, vis daugiau statistinių tyrimų Valstybės duomenų agentūroje (toliau – agentūra) atliekama administracinių šaltinių pagrindu.
2. Agentūroje ir kitose oficialiąją statistiką tvarkančiose įstaigose (toliau – KOSI) rengiama ir vartotojams pateikiama statistinė informacija privalo atitikti Europos statistikos sistemos kokybės standartus. Kad statistinė informacija, t. y. viso statistinės informacijos rengimo proceso rezultatas, būtų kokybiška, visų pirma turi būti užtikrinta visų proceso dalių, įskaitant gaunamus administracinius duomenis (statistinės informacijos rengimo proceso įvesties) bei administracinių duomenų šaltinių pagrindu sudarytus populiacijos sąrašus, kokybė.
II SKYRIUS
Tikslas
3. Administracinių duomenų šaltinių kokybės vertinimo tvarkos apraše (toliau – tvarkos aprašas) aprašomi kokybiniai ir kiekybiniai rodikliai, kuriais gali būti apibūdinta bei įvertinta administracinių duomenų bei jų pagrindu sudarytų populiacijos sąrašų kokybė.
III SKYRIUS
Pagrindinės sąvokos
5. Tvarkos apraše vartojamos sąvokos:
5.1. Administracinio šaltinio vienetas – administracinio šaltinio duomenų rinkinyje aprašomas objektas (įmonė, asmuo, ataskaita ir pan.).
5.2. Bazinis populiacijos sąrašo vienetas (angl. basic unit, toliau – bazinis vienetas) – mažiausias, nedalomas populiacijos sąrašo vienetas, pvz., asmuo.
5.3. Klasifikavimo (grupavimo) kintamasis – kintamasis, kuris įgyja kokio nors klasifikatoriaus (pvz., Ekonominės veiklos rūšių, Profesijų klasifikatoriaus ir pan.) arba kategorijų rinkinio (pvz., grupės pagal darbuotojų skaičių, pajamas, amžių, lytį) reikšmes.
5.4. Pagrindiniai kintamieji – vienas ar keli svarbiausi kintamieji administracinio šaltinio duomenų rinkinyje, turintys didžiausią svarbą rengiant statistinę informaciją.
5.5. Populiacijos sąrašas (angl. frame) – statistinio tyrimo populiacijos (toliau – tyrimo populiacijos) vienetų sąrašas, leidžiantis identifikuoti kiekvieną populiacijos vienetą. Populiacijos sąraše gali būti ir iš anksto turimi statistiniai duomenys apie tyrimo populiacijos vienetus. Iš populiacijos sąrašo yra renkama imtis, taip pat šis sąrašas naudojamas tyrimo populiacijos vienetams surašyti (pvz., Visuotinio gyventojų ir būstų surašymo metu). Populiacijos sąraše esanti papildoma informacija gali būti naudojama imties (ėmimo) planui sudaryti, pavyzdžiui, suskirstyti populiacijos sąrašo vienetus į sluoksnius ar lizdus ir pan.
5.6. Statistinės informacijos rengimo proceso įvestis (angl. input) – statistiniai tyrimo ir / ar administraciniai duomenys, kurie naudojami statistinei informacijai parengti, pritaikius agregavimo bei įverčių skaičiavimo metodus.
IV SKYRIUS
ADMINISTRACINIŲ duomenų kokybės vertinimas
6. Norint nusakyti administracinių duomenų kokybę, reikia įvertinti administracinį šaltinį kaip visumą:
6.1. pateikti bendrą informaciją apie administracinį šaltinį ir administracinių duomenų teikimo agentūrai arba KOSI procesą;
7. Toliau pateikiamas sudarytas kokybės rodiklių sąrašas, atitinkantis ankstesnio punkto papunkčiuose išvardytus aspektus. Nurodyti kokybės rodikliai gali būti pritaikomi tiek viso administracinio šaltinio duomenų kokybei įvertinti, tiek vieno ar kelių administracinių šaltinių dalies, kuri yra aktuali ir naudojama rengiant konkrečią statistinę informaciją, t. y. statistinės informacijos rengimo proceso įvesties kokybei įvertinti. Santykiniai kokybės rodikliai įgyja reikšmes tarp 0 ir 1 (arba nuo 0 iki 100 proc., jei skaičiuojami procentine išraiška). Kuo rodiklio reikšmė artimesnė nuliui, tuo administracinio šaltinio kokybė yra geresnė.
ADMINISTRACINIS ŠALTINIS |
Dimensija |
Kokybės rodiklis |
Aprašymas, skaičiavimo metodas |
||
1. |
Administracinių duomenų teikėjas |
1.1. |
Kontaktinė informacija |
Administracinio šaltinio pavadinimas. |
Administracinių duomenų teikėjo kontaktinė informacija (atstovo vardas, pavardė, telefono numeris, elektroninio pašto adresas). |
||||
Agentūros arba KOSI atstovo kontaktinė informacija (atstovo vardas, pavardė, telefono numeris, elektroninio pašto adresas). |
||||
1.2. |
Tikslas |
Nurodoma, kokiu tikslu (-ais) agentūroje arba KOSI naudojami administracinio šaltinio duomenys. |
||
2. |
Aktualumas |
2.1. |
Naudingumas |
Administracinio šaltinio svarba agentūros arba KOSI tikslams (nurodant, ar šiuo metu šaltinis yra naudojamas). |
2.2. |
Numatomas panaudojimas |
Išvardijami statistiniai tyrimai / statistikos darbai, kuriuose ateityje galima būtų panaudoti administracinio šaltinio duomenis, ir / arba jų skaičius. |
||
2.3. |
Respondentų našta |
Aprašoma, kaip administracinio šaltinio panaudojimas padėjo sumažinti naštą respondentams. Nurodoma, kokiuose statistiniuose tyrimuose sumažintas imties dydis, klausimų / formuliarų skaičius ir pan. |
||
3. |
Konfidencialumas ir saugumas |
3.1. |
Teisinis pagrindas |
Administracinio šaltinio teisinis pagrindas. Pateikiama nuoroda į administracinio šaltinio nuostatus. |
3.2. |
Konfidencialumas |
Nurodoma, kokiais teisės aktais ir priemonėmis užtikrinama asmens ir kitų konfidencialių duomenų apsauga. |
||
3.3. |
Saugumas |
Nurodomas administracinių duomenų teikimo agentūrai arba KOSI iš administracinių duomenų teikėjo būdas. |
||
Nurodoma, ar reikalingas saugus kanalas administraciniams duomenims perduoti (kai duomenys pateikiami asmens / įmonės lygiu), ar ne (kai pateikiami suvestiniai duomenys). |
||||
4. |
Administracinių duomenų gavimas |
4.1. |
Kaina |
Nurodoma, ar yra mokama už administracinių duomenų gavimą. |
4.2. |
Administracinių duomenų teikimo sąlygos |
Nurodoma, kur yra dokumentuotos duomenų teikimo sąlygos. |
||
Nurodoma, kaip dažnai gaunami administraciniai duomenys. Jeigu administraciniai duomenys prieinami nuolatos, tai turėtų būti nurodyta. |
||||
4.3. |
Administracinių duomenų atsilikimas |
Skaičiuojamas rodiklis
Čia:
Rodiklis skaičiuojamas tik pirmai informacijai paskelbti, bet ne patikslinti (revizijai).
Jei administraciniai duomenys yra gaunami nenutrūkstamu srautu, tai rodikliui skaičiuoti naudojama paskutinių administracinių duomenų, naudotų statistinei informacijai rengti, gavimo data.
Jeigu administraciniai duomenys yra gaunami prieš pasibaigiant ataskaitiniam laikotarpiui, rodiklio reikšmė prilyginama nuliui.
Jei statistinei informacijai rengti naudojamas daugiau nei vienas administracinis šaltinis, turėtų būti skaičiuojamas pasvertas vidurkis, atsižvelgiant į kiekvieno šaltinio svarbą galutinei statistinei informacijai. |
||
4.4. |
Administracinių duomenų vėlavimas |
Nurodoma, po kiek dienų (valandų) praėjus nustatytam administracinių duomenų gavimo terminui administracinio šaltinio duomenys buvo gauti. |
||
4.5. |
Formatas |
Nurodoma, kokiu formatu pateikiami administraciniai duomenys. |
||
5. |
Procedūros |
5.1. |
Administracinių duomenų surinkimas |
Nurodoma, kokiomis ataskaitomis ar kitais būdais administraciniai duomenys yra surenkami. Nurodoma, jei tokia informacija nėra žinoma. |
5.2. |
Suplanuoti pokyčiai |
Nurodoma, ar administracinių duomenų teikėjas informuoja agentūros arba KOSI atstovus apie planuojamus pasikeitimus (duomenų revizija, struktūros pokyčiai ir kiti). |
||
Jei taip, nurodoma, kada ir kokiais būdais tai padaroma. |
||||
5.3. |
Atgalinis atsakas |
Nurodoma, ar agentūros arba KOSI atstovai informuoja administracinių duomenų teikėją apie problemas dėl administracinių duomenų šaltinio. |
||
Kokiais atvejais informuoja (klaidos, administracinių duomenų vėlavimas, neteisingas klasifikavimas, gaunami ne visos apimties administraciniai duomenys, struktūros pokyčiai ir pan.)? |
||||
5.4. |
Rizikos |
Nurodoma statistinės informacijos neparengimo rizika, negavus administracinių duomenų. Rizika įvertinama pagal Valstybės duomenų agentūros rizikų valdymo tvarkos aprašą, patvirtintą agentūros generalinio direktoriaus 2023 m. kovo 30 d. įsakymu Nr. DĮ-80 „Dėl Valstybės duomenų agentūros rizikų valdymo tvarkos aprašo patvirtinimo“. |
||
Kokių priemonių būtų imtasi statistinei informacijai parengti tokiu atveju? |
METADUOMENYS |
Dimensija |
Kokybės rodiklis |
Metodai |
||
6. |
Aiškumas |
6.1. |
Administracinio šaltinio vieneto apibrėžimas |
Nurodoma, ar aiškiai suformuluotas administracinio šaltinio vieneto apibrėžimas:
0: apibrėžimas nenurodytas; 1: apibrėžimas neaiškus / nevienareikšmis; 2: apibrėžimas aiškus.
Apibrėžimas nurodomas. |
6.2. |
Klasifikavimo kintamųjų apibrėžimai |
Nurodoma, ar aiškiai suformuluoti administraciniame šaltinyje esančių klasifikavimo kintamųjų apibrėžimai, ar naudojami žinomi klasifikatoriai:
0: apibrėžimai nenurodyti; 1: apibrėžimai neaiškūs / nevienareikšmiai; 2: apibrėžimai aiškūs. |
||
6.3. |
Pagrindinių kintamųjų apibrėžimai |
Nurodoma, ar aiškiai suformuluoti administraciniame šaltinyje esančių pagrindinių kintamųjų apibrėžimai:
0: apibrėžimai nenurodyti; 1: apibrėžimai neaiškūs / nevienareikšmiai; 2: apibrėžimai aiškūs. |
||
6.4. |
Laiko dimensija |
Nurodoma, ar aiškiai apibrėžtas ataskaitinis laikotarpis / data, kurią atspindi administraciniame šaltinyje esantys duomenys:
0: apibrėžimas nenurodytas; 1: apibrėžimas neaiškus / nevienareikšmis; 2: apibrėžimas aiškus.
Ataskaitinis laikotarpis / data nurodomi. |
||
6.5. |
Apibrėžimų pasikeitimai |
Nurodoma, ar administracinių duomenų teikėjas pasidalina informacija su administracinių duomenų gavėju apie bet kurio apibrėžimo pasikeitimą:
0: nėra informacijos; 1: ne; 2: taip; 9: šiuo metu neaktualu, nebuvo apibrėžimų pasikeitimų.
Jei taip, nurodoma, kurie apibrėžimai keitėsi. |
||
7. |
Suderinamumas |
7.1. |
Populiacijos vieneto apibrėžimų suderinamumas |
Nurodoma, kaip skiriasi administracinio šaltinio vienetų ir agentūros arba KOSI statistiniuose tyrimuose naudojamų populiacijos vienetų apibrėžimai:
0: nėra informacijos, trūksta apibrėžimų; 1: apibrėžimai skiriasi, neįmanoma suvienodinti / susieti; 2: apibrėžimai skiriasi, įmanoma suvienodinti / susieti; 3: apibrėžimai visiškai sutampa.
Jeigu yra skirtumų, pateikiami apibrėžimai ir nurodomi jų skirtumai. |
7.2. |
Klasifikavimo kintamųjų apibrėžimų suderinamumas |
Nurodoma, kaip skiriasi administraciniame šaltinyje esančių ir agentūros arba KOSI statistiniuose tyrimuose naudojamų klasifikavimo kintamųjų apibrėžimai:
0: nėra informacijos, trūksta apibrėžimų; 1: apibrėžimai skiriasi, neįmanoma suvienodinti / susieti; 2: apibrėžimai skiriasi, įmanoma suvienodinti / susieti; 3: apibrėžimai visiškai sutampa.
Jeigu yra skirtumų, pateikiami apibrėžimai ir nurodomi jų skirtumai. |
||
7.3. |
Pagrindinių kintamųjų apibrėžimų suderinamumas |
Nurodoma, kaip skiriasi administraciniame šaltinyje esančių ir agentūros arba KOSI statistiniuose tyrimuose naudojamų pagrindinių kintamųjų apibrėžimai:
1: apibrėžimai skiriasi, neįmanoma suvienodinti / susieti; 2: apibrėžimai skiriasi, įmanoma suvienodinti / susieti; 3: apibrėžimai visiškai sutampa.
Jeigu yra skirtumų, pateikiami apibrėžimai ir nurodomi jų skirtumai. |
||
7.4. |
Laiko dimensijų skirtumai |
Nurodoma, kaip skiriasi administraciniame šaltinyje ir agentūros arba KOSI statistiniuose tyrimuose naudojami ataskaitiniai laikotarpiai / datos:
1: ataskaitiniai laikotarpiai / datos skiriasi, neįmanoma suvienodinti / susieti; 2: ataskaitiniai laikotarpiai / datos skiriasi, įmanoma suvienodinti / susieti; 3: ataskaitiniai laikotarpiai / datos visiškai sutampa.
Jeigu yra skirtumų, pateikiami apibrėžimai ir nurodomi jų skirtumai. |
||
8. |
Pirminiai raktai |
8.1. |
Identifikacinis kintamasis |
Nurodoma, ar administraciniame šaltinyje yra unikalus pirminis raktas:
0: nėra informacijos; 1: nėra; 2: yra (jis / jie nurodomas / -i). |
8.2. |
Unikali kintamųjų kombinacija |
Nurodoma, ar egzistuoja administracinio šaltinio kintamųjų kombinacija, pagal kurią vienareikšmiškai galima identifikuoti kiekvieną populiacijos vienetą:
0: nėra informacijos; 1: nėra; 2: yra (kombinacija nurodoma); 9: neaktualu. |
||
9. |
Administracinių duomenų teikėjo darbas su administraciniais duomenimis |
9.1. |
Administracinių duomenų tikrinimas |
Nurodoma, ar administracinių duomenų teikėjas atlieka administracinio šaltinio vienetų patikrinimus:
0: nėra informacijos; 1: ne; 2: taip (nurodyti, kokius). |
Nurodoma, ar administracinių duomenų teikėjas atlieka administracinio šaltinio kintamųjų patikrinimus (pvz., galimų reikšmių rėžiai):
0: nėra informacijos; 1: ne; 2: taip (nurodyti kokius). |
||||
Nurodoma, ar administracinių duomenų teikėjas atlieka administraciniame šaltinyje esančių kintamųjų tarpusavio ryšių (loginių, aritmetinių ir kitų) patikrinimus:
0: nėra informacijos; 1: ne; 2: taip (nurodyti kokius). |
||||
Nurodoma, ar administracinių duomenų teikėjas tikrina administraciniame šaltinyje esančių kintamųjų išsiskiriančias reikšmes:
0: nėra informacijos; 1: ne; 2: taip (nurodyti kokias). |
||||
9.2. |
Administracinių duomenų redagavimas |
Nurodoma, ar administracinių duomenų teikėjas atlieka administracinių duomenų redagavimą, įrašymą, numatytosios reikšmės įrašymą ir kitus administracinių duomenų pakeitimus:
0: nėra informacijos; 1: ne; 2: taip (nurodyti kokius). |
||
Jei atliekami administracinių duomenų pakeitimai, ar administraciniame šaltinyje yra nurodyta, kuri reikšmė buvo pakeista?
1: ne; 2: taip. |
||||
Jei atliekami administracinių duomenų pakeitimai, ar administraciniame šaltinyje yra nurodyta pradinė, neredaguota reikšmė?
1: ne; 2: taip. |
ADMINISTRACINIŲ DUOMENŲ TIKSLUMAS |
Dimensija |
Kokybės rodiklis |
Metodai |
||
10. |
Techniniai patikrinimai |
10.1. |
Administracinių duomenų atitiktis metaduomenims |
Nurodoma, ar gauti administraciniai duomenys yra tokie, kaip aprašyta metaduomenyse:
1: ne (nurodomi neatitikimai); 2: taip. |
10.2. |
Įrašų skaičius ir jo pokytis |
Nurodomas paskutinio gauto ataskaitinio laikotarpio / datos įrašų skaičius ir jų pokytis.
Įrašų skaičiaus pokytis parodo, kaip pasikeitė įrašų skaičius administraciniame šaltinyje lyginant dvi paskutines administracinių duomenų gavimo iš administracinių duomenų teikėjo datas (pagal administracinių duomenų gavimo periodiškumą). Rodiklis padeda sekti, ar administraciniai duomenys buvo atnaujinti, taip pat, ar gauti ne visos apimties administraciniai duomenys.
Čia:
Rodiklio reikšmė neturėtų smarkiai skirtis nuo vieneto. |
||
10.3. |
Dubliai |
Nurodomas besidubliuojančių įrašų (eilučių) skaičius ir bendro įrašų skaičiaus dalis
Jei administracinio šaltinio duomenų rinkinyje yra keli vienodi įrašai arba tam pačiam populiacijos vienetui priskirti keli skirtingi įrašai, nors turėtų būti tik vienas, tai besidubliuojančiu įrašu laikomas perteklinis, papildomas įrašas, kuris turėtų būti šalinamas iš administracinio šaltinio duomenų rinkinio. Pavyzdžiui, jei administracinio šaltinio duomenų rinkinyje yra trys eilutės, kuriose aprašomas tas pats vienetas, tai besidubliuojančiais būtų laikomi du įrašai (toliau aprašytoje formulėje dydis
Čia:
|
||
11. |
Aprėptis |
11.1. |
Perteklinė aprėptis |
Perteklinė aprėptis (angl. overcoverage) parodo, kokia dalis administraciniame šaltinyje esančių vienetų nepriklauso tyrimo populiacijai.
Čia:
Rodiklis gali būti skaičiuojamas pasvertas (pagal įmonės pajamas, darbuotojų skaičių ar pan.), atsižvelgiant į vieneto svarbą (%) galutinei statistinei informacijai.
Perteklinė aprėptis gali būti skaičiuojama kiekvienam statistinės informacijos skelbimui (pirminiams, patikslintiems, revizuotiems rodikliams). |
11.2. |
Nepakankama aprėptis |
Nepakankama aprėptis (angl. undercoverage) parodo, kokia dalis tyrimo populiacijos vienetų neįtraukta į administracinį šaltinį.
Čia:
Rodiklis gali būti skaičiuojamas pasvertas (pagal įmonės pajamas, darbuotojų skaičių ar pan.), atsižvelgiant į vieneto svarbą (%) galutinei statistinei informacijai.
Nepakankama aprėptis gali būti skaičiuojama kiekvieną kartą skelbiant statistinę informaciją (pirminius, patikslintus, revizuotus rodiklius). |
||
12. |
Trūkstamos reikšmės |
12.1. |
Vienetai, kuriems trūksta visų kintamųjų reikšmių |
Skaičiuojamas rodiklis
Čia:
Rodiklis gali būti skaičiuojamas pasvertas (pagal įmonės pajamas, darbuotojų skaičių ar pan.), atsižvelgiant į vieneto svarbą (%) galutinei statistinei informacijai. |
12.2. |
Pagrindinių kintamųjų trūkstamos reikšmės |
Skaičiuojamas rodiklis
Čia:
Rodiklis gali būti skaičiuojamas pasvertas (pagal įmonės pajamas, darbuotojų skaičių ar pan.), atsižvelgiant į vieneto svarbą (%) galutinei statistinei informacijai. |
||
13. |
Revizija |
|
Administracinių duomenų revizijos dydis |
Administracinio šaltinio duomenų revizijos dydis parodo, kaip smarkiai skiriasi kintamojo reikšmė pradiniame ir galutiniame administracinio šaltinio duomenų rinkinyje. Rodiklis padeda suprasti, kaip skirtųsi statistinė informacija, parengta naudojant pirminius ir patikslintus administracinius duomenis.
Čia:
Jei turima vienintelė administracinio šaltinio duomenų versija ir administraciniai duomenys nėra atnaujinami, šis rodiklis nereikšmingas.
Rodiklis gali būti skaičiuojamas pasvertas (pagal įmonės pajamas, darbuotojų skaičių ar pan.), atsižvelgiant į vieneto svarbą (%) galutinei statistinei informacijai. |
14. |
Administracinių duomenų redagavimas |
14.1. |
Neteisingo klasifikavimo lygis |
Neteisingo klasifikavimo lygis (angl. misclassification rate) parodo, kokiai daliai vienetų administraciniame šaltinyje yra neteisingai priskirta naudojamo klasifikatoriaus (grupavimo) reikšmė. Yra laikoma, kad viename iš turimų administracinių šaltinių vienetams priskirtos klasifikatoriaus (grupavimo) reikšmės yra žinomos ir teisingos (pvz., Įmonių registre įmonėms priskirtas veiklos kodas pagal Ekonominės veiklos rūšių klasifikatorių (EVRK 2.1 red.), patvirtintą agentūros generalinio direktoriaus 2024 m. gruodžio 3 d. įsakymu Nr. 266 „Dėl Ekonominės veiklos rūšių klasifikatoriaus (EVRK 2.1 red.) patvirtinimo“, (toliau – EVRK 2.1 red.).
Čia:
Klasifikavimo (grupavimo) lygmuo turėtų sutapti su lygmeniu, kuriame rengiama statistinė informacija. Pvz., jei statistinė informacija rengiama trijų ženklų lygmeniu pagal EVRK (2.1 red.), tai klasifikavimo tikslumas taip pat turėtų būti skaičiuojamas trijų ženklų lygmeniu.
Rodiklis gali būti skaičiuojamas pasvertas (pagal įmonės pajamas, darbuotojų skaičių ar pan.), atsižvelgiant į vieneto svarbą (%) galutinei statistinei informacijai.
Jeigu yra atliekamas statistinis tyrimas, norint patikrinti neteisingo klasifikavimo lygį, tai statistinio tyrimo metu apskaičiuotas rodiklis turėtų būti pateikiamas kartu su tai nurodančia specialia žyma.
|
14.2. |
Įrašų, netenkinančių tam tikrų tikrinimo ir tinkamumo patvirtinimo taisyklių, dalis |
Skaičiuojant šį rodiklį atsižvelgiama į įvairius patikrinimus – automatinius ar rankinius, išskirtis, palyginimus su kitais šaltiniais (administraciniais ar statistinių tyrimų duomenimis), internete esančia informacija, modelius ir pan., dėl kurių statistikos skyrių specialistai pažymi šį įrašą kaip nepatikimą ar įtartiną. Tačiau taisyklės netenkinimas nereiškia, kad įrašo reikšmė yra klaidinga.
Čia:
Jeigu administracinių duomenų tikrinimas ir tinkamumo patvirtinimas atliekamas automatiškai ir programinė įranga, atliekanti patikrinimus, nesaugo informacijos apie tikrinimo ir tinkamumo patvirtinimo taisyklių netenkinančius įrašus, turėtų būti pateikiamas paaiškinimas.
Rodiklis gali būti skaičiuojamas pasvertas (pagal įmonės pajamas, darbuotojų skaičių ar pan.), atsižvelgiant į vieneto svarbą (%) galutinei statistinei informacijai.
Taip pat turėtų būti nurodoma, kokia administracinių duomenų dalis buvo tikrinta, kokios tikrinimo ir tinkamumo patvirtinimo taisyklės taikytos. |
||
14.3. |
Redaguotų klaidingų reikšmių dalis |
Skaičiuojamas rodiklis
Skaičiuojant šį rodiklį atsižvelgiama tik į statistikos skyrių specialistų atliktą redagavimą. Bet kokie administracinių duomenų pakeitimai, padaryti prieš gaunant administracinius duomenis, nėra įtraukiami.
Čia:
Rodiklis gali būti skaičiuojamas pasvertas (pagal įmonės pajamas, darbuotojų skaičių ar pan.), atsižvelgiant į vieneto svarbą (%) galutinei statistinei informacijai. |
||
14.4. |
Dėl išskirčių redaguotų reikšmių dalis |
Skaičiuojamas rodiklis
Skaičiuojant šį rodiklį atsižvelgiama tik į statistikos skyrių specialistų atliktą redagavimą. Bet kokie administracinių duomenų pakeitimai, padaryti prieš gaunant administracinius duomenis, nėra įtraukiami.
Čia:
Rodiklis gali būti skaičiuojamas pasvertas (pagal įmonės pajamas, darbuotojų skaičių ar pan.), atsižvelgiant į vieneto svarbą (%) galutinei statistinei informacijai. |
||
14.5. |
Įrašytų reikšmių dalis |
Skaičiuojamas rodiklis
Čia:
Rodiklis gali būti skaičiuojamas pasvertas (pagal įmonės pajamas, darbuotojų skaičių ar pan.), atsižvelgiant į įrašytos reikšmės svarbą (%) galutinei statistinei informacijai. |
||
15. |
Tikslumas |
|
Vidutinė kvadratinė paklaida |
Skaičiuojama pagrindinių kiekybinių kintamųjų vidutinė kvadratinė paklaida MSE:
Čia:
N – visų administraciniame šaltinyje esančių, statistinei informacijai rengti naudojamų vienetų / įrašų skaičius;
|
16. |
Suderinamumas |
16.1. |
Bendrų vienetų dalis dviejuose ar daugiau šaltinių |
Skaičiuojamas rodiklis
Čia:
Turėtų būti atsižvelgiama tik į administracinio šaltinio vienetus, kurie yra svarbūs rengiant statistinę informaciją. Rodiklis turėtų būti skaičiuojamas atskirai kiekvienam kintamajam kiekvienai administracinių šaltinių porai, o tada agreguojamas.
Jei naudojamas tik vienas administracinis šaltinis, tai šis rodiklis yra nereikšmingas.
Rodiklis gali būti skaičiuojamas pasvertas (pagal įmonės pajamas, darbuotojų skaičių ar pan.), atsižvelgiant į vieneto svarbą (%) galutinei statistinei informacijai. |
16.2. |
Administracinio šaltinio vienetų, kurie turi būti pakoreguoti, kad būtų sukurtas statistinis vienetas, dalis |
Skaičiuojamas rodiklis
Čia:
|
||
17. |
Palyginamumas |
|
Pokytis |
Statistinio įverčio / rodiklio pokytis
Rodiklis skaičiuojamas tik vieną kartą kiekvienam statistinio tyrimo kintamajam.
Čia:
Pastaba: statistiniai įverčiai / rodikliai |
V SKYRIUS
ADMINISTRACINIŲ ŠALTINIŲ PAGRINDU SUDARYTO Populiacijos sąrašo kokybės vertinimas
8. Administracinių šaltinių pagrindu sudaryti populiacijos sąrašai gali būti naudojami populiacijos vienetų imtims išrinkti, ištisiniams statistiniams tyrimams (surašymams) atlikti ar tiesiogiai panaudoti kaip statistinių duomenų įvestis statistinei informacijai rengti.
9. Populiacijos sąrašo aprėpties ir klasifikavimo klaidos, netiksli populiacijos vienetų kontaktinė informacija ir neteisingas populiacijos vienetų susiejimas gali turėti tiesioginės įtakos galutinės statistinės informacijos kokybei. Lentelėje išvardyti kokybės rodikliai, kurie apibūdina galimas klaidas populiacijos sąraše. Išsamus kokybės rodiklių aprašymas ir skaičiavimo būdai aprašyti tolesniuose tvarkos aprašo punktuose.
Klaidos rūšis |
Kokybės rodiklis |
||
1. |
Aprėpties klaida |
1.1. |
Nepakankama populiacijos sąrašo aprėptis, atsiradusi dėl klaidų ir netikslumų populiacijos sąraše |
1.2. |
Tikslinė nepakankama populiacijos sąrašo aprėptis |
||
1.3. |
Perteklinė populiacijos sąrašo aprėptis |
||
1.4. |
Besidubliuojančių populiacijos sąrašo vienetų dalis |
||
2. |
Klasifikavimo klaida |
|
Neteisingai sričiai priskirtų populiacijos sąrašo vienetų dalis |
3. |
Susiejimo klaida |
3.1. |
Priskyrimo paklaida |
3.2. |
Vieneto paklaida |
||
4. |
Klaidinga kontaktinė informacija[1] |
|
Kontaktų paklaida |
5. |
Klaidingos kintamųjų reikšmės |
|
Reikšmės paklaida |
10. Įvedami žymėjimai:
, ...,
– tyrimo populiacijos ar jos sąrašo srities (angl. domain) numeris;
, ...,
– vienetų, priklausančių atitinkamoms tyrimo populiacijos ir populiacijos sąrašo sritims, skaičius;
, ...,
– tyrimo populiacijai nepriklausančių, bet klaidingai į populiacijos sąrašą įtrauktų vienetų skaičius populiacijos sąrašo srityse 1, ..., H (perteklinė aprėptis);
, ...,
– populiacijos sąrašo srityse 1, ..., H esančių besidubliuojančių vienetų skaičius. Jei populiacijos sąraše yra keli vienodi įrašai arba tam pačiam populiacijos vienetui priskirti keli skirtingi įrašai, nors turėtų būti tik vienas, tai besidubliuojančiu vienetu laikomas perteklinis, papildomas vienetas, kurio duomenys turėtų būti šalinami iš populiacijos sąrašo. Pavyzdžiui, jei populiacijos sąraše yra trys eilutės, kuriose aprašomas tas pats vienetas, tai besidubliuojančiais būtų laikomi du įrašai.
, ...,
– tyrimo populiacijai priklausančių, bet populiacijos sąraše nesančių vienetų skaičius populiacijos srityse 1, ..., H (nepakankama aprėptis);
, ...,
– tyrimo populiacijai priklausančių, bet į populiacijos sąrašą tikslingai neįtrauktų vienetų skaičius populiacijos srityse 1, ..., H (tikslinė nepakankama aprėptis);
– bendras populiacijos dydis.
Tyrimo populiacijos sritis |
Populiacijos sąrašo sritis |
Trūkstami vienetai (nepakankama aprėptis dėl klaidos) |
Neįtraukti vienetai (tikslinė nepakankama aprėptis) |
|||
1 |
2 |
... |
H |
|
|
|
1 |
|
|
|
|
|
|
... |
|
|
|
|
|
|
H |
|
|
|
|
|
|
Klaidingai populiacijos sąraše esantys vienetai (perteklinė aprėptis) |
|
|
|
|
|
|
Besidubliuojantys vienetai |
|
|
|
|
|
|
11. Aprėpties ir klasifikavimo klaidas apibūdinantys kokybės rodikliai:
11.1. Nepakankama populiacijos sąrašo aprėptis, atsiradusi dėl klaidų ir netikslumų populiacijos sąraše (angl. error undercoverage) – vienetų, kurie priklauso tyrimo populiacijai, tačiau nėra įtraukti į populiacijos sąrašą, dalis:
11.2. Tikslinė nepakankama populiacijos sąrašo aprėptis (angl. design undercoverage) – vienetų, kurie dėl įvairių priežasčių tikslingai buvo neįtraukti į populiacijos sąrašą (pvz., gyvena sunkiai pasiekiamoje vietovėje), dalis:
11.3. Perteklinė populiacijos sąrašo aprėptis (angl. error overcoverage) – vienetų, kurie nepriklauso tyrimo populiacijai, bet yra įtraukti į populiacijos sąrašą, dalis:
11.5. Neteisingai sričiai priskirtų vienetų dalis (angl. domain misclassification) – populiacijos vienetų, kurie populiacijos sąraše priskirti neteisingai sričiai, dalis. Rodiklis parodo nepakankamą aprėptį vienose srityse ir perteklinę aprėptį kitose srityse. Neteisingas priskyrimas sričiai atsiranda dėl populiacijos sąrašui sudaryti naudojamos neteisingos papildomos informacijos:
12. Įvedami žymėjimai:
– bazinių vienetų skaičius populiacijos sąraše;
– sudėtinių vienetų skaičius populiacijos sąraše;
, ...,
– bazinių vienetų klasifikacijos numeris;
, ...,
– sudėtinių vienetų klasifikacijos numeris;
– i-tosios klasės (srities) bazinių vienetų, kurie yra priskirti j-tosios klasės (srities) sudėtiniam vienetui, skaičius;
– j-tosios klasės (srities) sudėtinių vienetų, kuriems priskirti i-tosios klasės (srities) baziniai vienetai, skaičius;
– i-tosios klasės (srities) bazinių vienetų, kurie yra klaidingai priskirti j-tosios klasės (srities) sudėtiniam vienetui, skaičius;
– i-tosios klasės (srities) bazinių vienetų, kuriems priskirta neteisinga kontaktinė informacija arba tokios informacijos iš viso nėra, skaičius;
– i-tosios klasės (srities) bazinių vienetų, kuriems priskirta neteisinga k-tojo kintamojo reikšmė (arba ši reikšmė nežinoma), skaičius.
Bazinių vienetų klasifikavimas (sritys) |
Sudėtinių vienetų klasifikavimas (sritys) |
Bazinių vienetų skaičius |
|||
1 |
2 |
... |
H |
||
1 |
|
|
|
|
|
2 |
|
|
|
|
|
... |
|
|
|
|
|
G |
|
|
|
|
|
Sudėtinių vienetų skaičius |
|
|
|
|
|
13. Susiejimo, klaidingos kontaktinės informacijos ir klaidingų kintamųjų reikšmių klaidas apibūdinantys kokybės rodikliai:
13.1. Priskyrimo paklaida (angl. alignment error) - bazinių vienetų, neteisingai priskirtų sudėtiniams vienetams, dalis:
13.3. Kontaktų paklaida (angl. contact error) – bazinių vienetų, kurių kontaktinė informacija yra neteisinga arba tokios informacijos išvis nėra, dalis:
Vietoj šio kokybės rodiklio galima skaičiuoti tris atskirus rodiklius atsižvelgiant į tai, ar kontaktinė informacija yra teisinga, netinkama naudoti ar trūkstama.
14. Apibendrinti rodikliai:
14.1. Apibendrintas kokybės rodiklis skaičiuojamas kaip pasverta anksčiau aprašytų rodiklių suma:
Čia raide pažymėti svoriai, kurių suma lygi vienetui.
14.1.1. Kadangi kiekvienas iš išvardytų rodiklių gali įgyti reikšmes tarp nulio ir vieneto, tai ir apibendrintas rodiklis įgis šio diapazono reikšmes. Kuo apibendrinto rodiklio reikšmė artimesnė nuliui, tuo populiacijos sąrašas yra kokybiškesnis.
14.1.2. Svorių kiekvienai komponentei pasirinkimas turi didelę įtaką apibrėžiant kiekvieno rodiklio svarbą. Vienodų svorių parinkimas nėra tinkamas kiekvienam atvejui. Svorių pasirinkimą turi nulemti ir populiacijos sąrašo naudojimo tikslas, pvz., jei sąrašas bus naudojamas ne imčiai išrinkti, o kitu tikslu (tiesiogiai rengti statistinę informaciją ar pan.), tai kontaktų paklaidos svoris turėtų būti lygus nuliui. Taip pat svoris gali būti prilygintas nuliui dėl kai kurių praktinių priežasčių, pvz., kai nėra pakankamai informacijos apskaičiuoti kurį nors kokybės rodiklį.
14.2. Galima skaičiuoti supaprastintą apibendrintą rodiklį, sujungiant tik aprėpties kokybės rodiklius. Pagal 14.1.2 papunktyje aprašytą metodą likusių rodiklių svoriai prilyginami nuliui:
14.3. Kadangi dažnu atveju rodiklį galima apskaičiuoti tik turint papildomos informacijos (atlikus statistinį tyrimą arba naudojant kitus duomenų šaltinius, nei buvo naudojama populiacijos sąrašui sudaryti), galima dar labiau supaprastinti apibendrintą kokybės rodiklį, paliekant tik tris komponentes:
14.4. Reikia atkreipti dėmesį, kad aprašytieji apibendrinti rodikliai neleidžia padaryti jokių išvadų apie tai, kokia dalis populiacijos sąrašo vienetų neturi jokių klaidų.
VI SKYRIUS
nAUDOTOS LITERATŪROS SĄRAŠAS
15. Checklist for evaluating the quality of input data (08/2016),
https://cros.ec.europa.eu/group/31/files/641/download.
16. Quality Guidelines for Frames in Social Statistics (09/2019),
https://cros.ec.europa.eu/group/31/files/448/download.
17. Quality Guidelines for Multisource Statistics (10/2019),
https://cros.ec.europa.eu/group/31/files/563/download.
[1] Kontaktinė informacija – bet kokia informacija, padedanti susisiekti su populiacijos vienetu, t. y. gyvenamosios vietos adresas, telefono numeris, elektroninio pašto adresas.