Korpusi so elektronske zbirke avtentičnih besedil, nastale po vnaprej določenih merilih in z določenim ciljem ter opremljena z orodji, ki omogočajo večplastno iskanje jezikovnih podatkov. Korpus Gigafida je obsežna zbirka slovenskih besedil najrazličnejših zvrsti, od dnevnih časopisov, revij do knjižnih publikacij vseh vrst (leposlovje, učbeniki, stvarna literatura), spletnih besedil, prepisov parlamentarnih govorov in podobno, vsebuje pa skoraj 1,2 milijarde besed oz. natančneje 1.187.002.502 besedi.
Gigafida je namenjena raziskovanju sodobnega slovenskega jezika na več ravneh. Tako po eni strani daje odgovore na posamezne sprotne poizvedbe, še pomembneje pa je, da daje podatke o celotni podobi slovenščine. Na ta način je danes skoraj edini razmeroma zanesljiv vir za izdelavo sodobnih slovarjev, slovnic in različnih jezikovnih priročnikov za slovenščino, uporablja pa se tudi v jezikovnih tehnologijah.
Ožje, v okviru projekta Sporazumevanje v slovenskem jeziku, je Gigafida izhodišče za prikaz realne podobe slovenskega jezika v pedagoškem slovničnem portalu, slogovnem priročniku in leksikalni bazi za slovenščino, in sicer tako v smislu iz korpusa pridobljenih podatkov ter njihovih interpretacij kot konkretnih zgledov.
Z Gigafido želimo seznaniti ne le znanstvenike in raziskovalce v jezikoslovju, temveč tudi učitelje slovenščine v osnovnih in srednjih šolah, njihove učence, tiste, ki se slovenščine učijo kot drugega ali tujega jezika, pa tudi vse, ki gredo namesto na knjižno polico odgovor na svojo jezikovno zadrego raje iskat na svetovni splet. Široki množici različnih uporabnikov smo prilagodili tudi vmesnik, ki vsebuje med drugim uporabniško prijazne iskalne možnosti, samodejno lematizacijo iskalnega pogoja ter takojšen in samodejen prikaz podatkovnih filtrov.
Gigafida vsebuje besedila, ki so izšla med letoma 1990 in 2011. Gre za tiskana besedila in za besedila, pridobljena s spletnih strani. Tiskana besedila so izšla bodisi kot knjige z leposlovno ali stvarno vsebino bodisi v periodični obliki kot revije ali časopisi. Besedila s spleta smo pridobivali z novičarskih portalov ter predstavitvenih strani večjih slovenskih podjetij in pomembnejših državnih, pedagoških, raziskovalnih, kulturnih ipd. ustanov. Delež pridobljenih besedil po številu besed v posamezni kategoriji prikazuje spodnja slika.
V Gigafido smo vključili skoraj celotni predhodni referenčni korpus slovenščine, tj. korpus FidaPLUS (2006), in vse gradivo, ki smo ga dobili na novo ter so zanj pogodbeno urejena avtorskopravna razmerja, medtem ko smo bolj uravnotežena razmerja med vrstami besedil že predhodno načrtovali in jih tudi uresničili v 100-milijonskem podkorpusu: KRES-u.
Število besed glede na leto izida, kot ga prikazuje spodnja slika, kaže dokaj stalno letno povečevanje količine gradiva.
Gigafida vsebuje tudi druge vrste informacij. Vsak posamezni dokument, ki jih je skupaj 39.427, vsebuje informacijo o viru (npr. Mladina, Delo, Dnevnik), letu nastanka, vrsti besedila (npr. leposlovje, revija), naslovu in avtorju, če je ta znan. Poleg tega je Gigafida jezikoslovno označen korpus, kar pomeni, da sta prav vsaki besedi v korpusu pripisana še dva podatka. Prvi je osnovna oblika besede ali lema (npr. jagode, jagodi, jagodam = jagoda), drugi je t.i. oblikoskladenjska oznaka. Ta oznaka opisuje, v katero besedno vrsto spada beseda (samostalnik, glagol, pridevnik itd.) in kakšne so njene lastnosti (npr. spol, število, sklon). Ker gre za ogromne količine besedil, je označevanje potekalo povsem avtomatsko s pomočjo statističnega označevalnika Obeliks, ki je bil ravno tako izdelan v okviru projekta Sporazumevanje v slovenskem jeziku. Delovanje označevalnika lahko preizkusite tudi na spletu.
Lastnik korpusa Gigafida je Ministrstvo za izobraževanje, znanost, kulturo in šport. Korpus je prosto dostopen za uporabo v (različnih) spletnih vmesnikih, baza korpusa v tekstovni obliki (format XML) zaradi varovanja avtorskih pravic besedilodajalcev ni prosto dostopna. Če želite dobiti dostop do celotne baze v tekstovni obliki ali če želite vključiti korpus v svoj spletni vmesnik, pišite na naslov info@slovenscina.eu. Korpus ccGigafida, 9-odstotni del korpusa Gigafida, je prosto dostopen tudi v tekstovni obliki in ga najdete na strani s prostimi zbirkami.
Članki, monografije
Špela Arhar Holdt, Iztok Kosem in Nataša Logar Berginc (2012): Izdelava korpusa Gigafida in njegovega spletnega vmesnika. V T. Erjavec, J. Žganec Gros (ur.): Zbornik Osme konference Jezikovne tehnologije. Ljubljana: Institut Jožef Stefan.
Tomaž Erjavec in Nataša Logar Berginc (2012): Referenčni korpusi slovenskega jezika (cc)Gigafida in (cc)KRES. V T. Erjavec, J. Žganec Gros (ur.): Zbornik Osme konference Jezikovne tehnologije. Ljubljana: Institut Jožef Stefan.
Nataša Logar Berginc, Miha Grčar, Marko Brakus, Tomaž Erjavec, Špela Arhar Holdt in Simon Krek (2012): Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKRES: gradnja, vsebina, uporaba. Ljubljana: Trojina, zavod za uporabno slovenistiko; Fakulteta za družbene vede.
Nataša Logar Berginc in Iztok Kosem (2011): Gigafida – the new corpus of modern Slovene: what is really in there? Slavicorp conference. Dubrovnik.
Nataša Logar Berginc in Simon Krek (2010): New Slovene corpora within the “Communication in Slovene” project. Slavicorp conference. Warsaw.
Nataša Logar Berginc in Simon Šuster (2009): Gradnja novega korpusa slovenščine. Jezik in slovstvo 54/3–4. 57–68.
Videolectures
Nataša Logar (2009): Korpus: niso ga samo besede.
Mnoge spletne strani shranjujejo informacije o vaši dejavnosti na spletni strani. Te informacije se shranijo na vašem računalniku v obliki majhnih datotek, ki jih imenujemo piškotki.
Na tej spletni strani uporabljamo naslednje piškotke:
Upravljanje s piškotki
Če želite omogočiti piškotke potem v obvestilu na vrhu strani kliknite možnost "SPREJMEM PIŠKOTKE". Če ne želite omogočiti piškotkov potem kliknite možnost "NE SPREJMEM PIŠKOTKOV". Če obvestila ne vidite ali pa želite spremeniti svojo odločitev potem kliknite tukaj. Navodila za izključitev storitve Google Analytics najdete na spletni strani http://tools.google.com/dlpage/gaoptout.