Ustrezna infrastruktura je ključnega pomena za razvoj jezikovnih tehnologij. To lahko sestavljajo bolj ali manj urejene oz. popolne zbirke besed, besedil in izgovarjav ter različni slovarji, leksikoni, tezavri itd. Brez zadostnega števila ustrezno urejenih jezikovnih podatkov si razvoja in izdelave splošno uporabnih programov ter sistemov s področja jezikovnih tehnologij res ne moremo zamišljati. Za gradnjo aktivnih (strojno berljivih) elektronskih slovarjev, ki vsebujejo različne informacije (znanje) o jeziku, so bistvenega pomena besedilni korpusi. To so zbirke besedil, urejene po določenih pravilih in pretvorjene v enotno obliko zapisa, ter ustreznih programov, s katerimi preiskujemo besedila in nad njimi izvajamo določene statistične operacije. V zadnjih letih se je težišče jezikoslovnega raziskovalnega dela zelo prevesilo v smeri besedilnih korpusov, saj so ti -- še zlasti, če so zelo obsežni in pravilno uravnoteženi --, edini pravi pokazatelj dejanskega stanja jezika. Poleg besedilnih obstajajo tudi korpusi govorjenih besedil, ki se uporabljajo kot infrastruktura za razvoj razpoznave in sinteze govora. Ti so manjši od večine besedilnih korpusov, saj je na voljo manj posnetih zvočnih materialov kot samih besedil, njihova obdelava pa je precej zahtevnejša in dolgotrajnejša.
Beseda | Osnovna oblika | Oblikoslovne lastnosti osnovne oblike |
---|---|---|
Ustrezna | ustrezen | splošni pridevnik; nedoločena stopnja, ženski spol, ednina, imenovalnik |
infrastruktura | infrastruktura | samostalnik, občno ime; ženski spol, ednina, imenovalnik |
je | biti | pomožni glagol; sedanjik, 3. oseba, ednina, nezanikani |
ključnega | ključen | splošni pridevnik; nedoločena stopnja, moški spol, ednina, rodilnik |
pomena | pomen | samostalnik, občno ime; moški spol, ednina, rodilnik |
za | za | predlog; tožilnik |
razvoj | razvoj | samostalnik, občno ime; moški spol, ednina, tožilnik, živost=ne |
jezikovnih | jezikoven | splošni pridevnik; nedoločena stopnja, ženski spol, množina, rodilnik |
tehnologij | tehnologija | samostalnik, občno ime; ženski spol, množina, rodilnik |
To | ta | kazalni zaimek; srednji spol, ednina, imenovalnik |
lahko | lahko | splošni prislov; nedoločena stopnja |
sestavljajo | sestavljati | glavni glagol; nedovršni, sedanjik, 3. oseba, množina |
bolj | bolj | splošni prislov; primernik |
ali | ali | priredni veznik |
manj | manj | splošni prislov; primernik |
urejene | urejen | deležniški pridevnik; nedoločena stopnja, ženski spol, množina, imenovalnik |
oz. | oz. | okrajšava |
popolne | popoln | splošni pridevnik; nedoločena stopnja, ženski spol, ednina, rodilnik |
zbirke | zbirka | samostalnik, občno ime; ženski spol, ednina, rodilnik |
besed | beseda | samostalnik, občno ime; ženski spol, množina, rodilnik |
besedil | besedilo | samostalnik, občno ime; srednji spol, množina, rodilnik |
in | in | priredni veznik |
izgovarjav | izgovarjava | samostalnik, občno ime; ženski spol, množina, rodilnik |
ter | ter | priredni veznik |
različni | različen | splošni pridevnik; nedoločena stopnja, moški spol, množina, imenovalnik |
slovarji | slovar | samostalnik, občno ime; moški spol, množina, imenovalnik |
leksikoni | leksikon | samostalnik, občno ime; moški spol, množina, imenovalnik |
tezavri | tezaver | samostalnik, občno ime; moški spol, množina, imenovalnik |
itd. | itd. | okrajšava |
Brez | brez | predlog; rodilnik |
zadostnega | zadosten | splošni pridevnik; nedoločena stopnja, srednji spol, ednina, rodilnik |
števila | število | samostalnik, občno ime; srednji spol, ednina, rodilnik |
ustrezno | ustrezno | splošni prislov; nedoločena stopnja |
urejenih | urejen | deležniški pridevnik; nedoločena stopnja, moški spol, množina, rodilnik |
jezikovnih | jezikoven | splošni pridevnik; nedoločena stopnja, moški spol, množina, rodilnik |
podatkov | podatek | samostalnik, občno ime; moški spol, množina, rodilnik |
si | biti | pomožni glagol; sedanjik, 2. oseba, ednina, nezanikani |
razvoja | razvoj | samostalnik, občno ime; moški spol, ednina, rodilnik |
in | in | priredni veznik |
izdelave | izdelava | samostalnik, občno ime; ženski spol, ednina, rodilnik |
splošno | splošno | splošni prislov; nedoločena stopnja |
uporabnih | uporaben | splošni pridevnik; nedoločena stopnja, moški spol, množina, rodilnik |
programov | program | samostalnik, občno ime; moški spol, množina, rodilnik |
ter | ter | priredni veznik |
sistemov | sistem | samostalnik, občno ime; moški spol, množina, rodilnik |
s | z | predlog; rodilnik |
področja | področje | samostalnik, občno ime; srednji spol, ednina, rodilnik |
jezikovnih | jezikoven | splošni pridevnik; nedoločena stopnja, ženski spol, množina, rodilnik |
tehnologij | tehnologija | samostalnik, občno ime; ženski spol, množina, rodilnik |
res | res | splošni prislov; nedoločena stopnja |
ne | ne | členek |
moremo | moči | glavni glagol; nedovršni, sedanjik, 1. oseba, množina |
zamišljati | zamišljati | glavni glagol; nedovršni, nedoločnik |
Za | za | predlog; tožilnik |
gradnjo | gradnja | samostalnik, občno ime; ženski spol, ednina, tožilnik |
aktivnih | aktiven | splošni pridevnik; nedoločena stopnja, moški spol, množina, rodilnik |
strojno | strojno | splošni prislov; nedoločena stopnja |
berljivih | berljiv | splošni pridevnik; nedoločena stopnja, moški spol, množina, rodilnik |
elektronskih | elektronski | splošni pridevnik; nedoločena stopnja, moški spol, množina, rodilnik |
slovarjev | slovar | samostalnik, občno ime; moški spol, množina, rodilnik |
ki | ki | podredni veznik |
vsebujejo | vsebovati | glavni glagol; nedovršni, sedanjik, 3. oseba, množina |
različne | različen | splošni pridevnik; nedoločena stopnja, ženski spol, množina, tožilnik |
informacije | informacija | samostalnik, občno ime; ženski spol, množina, tožilnik |
znanje | znanje | samostalnik, občno ime; srednji spol, ednina, imenovalnik |
o | o | predlog; mestnik |
jeziku | jezik | samostalnik, občno ime; moški spol, ednina, mestnik |
so | biti | pomožni glagol; sedanjik, 3. oseba, množina, nezanikani |
bistvenega | bistven | splošni pridevnik; nedoločena stopnja, moški spol, ednina, rodilnik |
pomena | pomen | samostalnik, občno ime; moški spol, ednina, rodilnik |
besedilni | besedilen | splošni pridevnik; nedoločena stopnja, moški spol, množina, imenovalnik |
korpusi | korpus | samostalnik, občno ime; moški spol, množina, imenovalnik |
To | ta | kazalni zaimek; srednji spol, ednina, imenovalnik |
so | biti | pomožni glagol; sedanjik, 3. oseba, množina, nezanikani |
zbirke | zbirka | samostalnik, občno ime; ženski spol, množina, imenovalnik |
besedil | besedilo | samostalnik, občno ime; srednji spol, množina, rodilnik |
urejene | urejen | deležniški pridevnik; nedoločena stopnja, ženski spol, množina, imenovalnik |
po | po | predlog; mestnik |
določenih | določen | deležniški pridevnik; nedoločena stopnja, srednji spol, množina, mestnik |
pravilih | pravilo | samostalnik, občno ime; srednji spol, množina, mestnik |
in | in | priredni veznik |
pretvorjene | pretvorjen | deležniški pridevnik; nedoločena stopnja, ženski spol, množina, imenovalnik |
v | v | predlog; tožilnik |
enotno | enoten | splošni pridevnik; nedoločena stopnja, ženski spol, ednina, tožilnik |
obliko | oblika | samostalnik, občno ime; ženski spol, ednina, tožilnik |
zapisa | zapis | samostalnik, občno ime; moški spol, ednina, rodilnik |
ter | ter | priredni veznik |
ustreznih | ustrezen | splošni pridevnik; nedoločena stopnja, moški spol, množina, rodilnik |
programov | program | samostalnik, občno ime; moški spol, množina, rodilnik |
s | z | predlog; orodnik |
katerimi | kateri | vprašalni zaimek; srednji spol, množina, orodnik |
preiskujemo | preiskovati | glavni glagol; nedovršni, sedanjik, 1. oseba, množina |
besedila | besedilo | samostalnik, občno ime; srednji spol, ednina, rodilnik |
in | in | priredni veznik |
nad | nad | predlog; orodnik |
njimi | on | osebni zaimek; 3. oseba, moški spol, množina, orodnik |
izvajamo | izvajati | glavni glagol; nedovršni, sedanjik, 1. oseba, množina |
določene | določen | deležniški pridevnik; nedoločena stopnja, ženski spol, množina, tožilnik |
statistične | statističen | splošni pridevnik; nedoločena stopnja, ženski spol, množina, tožilnik |
operacije | operacija | samostalnik, občno ime; ženski spol, ednina, rodilnik |
V | v | predlog; mestnik |
zadnjih | zadnji | splošni pridevnik; nedoločena stopnja, srednji spol, množina, mestnik |
letih | leto | samostalnik, občno ime; srednji spol, množina, mestnik |
se | se | povratni zaimek;, klitična naslonskost |
je | biti | pomožni glagol; sedanjik, 3. oseba, ednina, nezanikani |
težišče | težišče | samostalnik, občno ime; srednji spol, ednina, imenovalnik |
jezikoslovnega | jezikosloven | splošni pridevnik; nedoločena stopnja, srednji spol, ednina, rodilnik |
raziskovalnega | raziskovalen | splošni pridevnik; nedoločena stopnja, srednji spol, ednina, rodilnik |
dela | delo | samostalnik, občno ime; srednji spol, ednina, rodilnik |
zelo | zelo | splošni prislov; nedoločena stopnja |
prevesilo | prevesiti | glavni glagol; dovršni, deležnik, ednina, srednji spol |
v | v | predlog; mestnik |
smeri | smer | samostalnik, občno ime; ženski spol, ednina, mestnik |
besedilnih | besedilen | splošni pridevnik; nedoločena stopnja, moški spol, množina, rodilnik |
korpusov | korpus | samostalnik, občno ime; moški spol, množina, rodilnik |
saj | saj | priredni veznik |
so | biti | pomožni glagol; sedanjik, 3. oseba, množina, nezanikani |
ti | ta | kazalni zaimek; moški spol, množina, imenovalnik |
še | še | členek |
zlasti | zlasti | členek |
če | če | podredni veznik |
so | biti | pomožni glagol; sedanjik, 3. oseba, množina, nezanikani |
zelo | zelo | splošni prislov; nedoločena stopnja |
obsežni | obsežen | splošni pridevnik; nedoločena stopnja, moški spol, množina, imenovalnik |
in | in | priredni veznik |
pravilno | pravilno | splošni prislov; nedoločena stopnja |
uravnoteženi | uravnotežen | deležniški pridevnik; nedoločena stopnja, moški spol, množina, imenovalnik |
edini | edin | splošni pridevnik; nedoločena stopnja, moški spol, ednina, imenovalnik, določnost=da |
pravi | pravi | splošni pridevnik; nedoločena stopnja, moški spol, ednina, imenovalnik, določnost=da |
pokazatelj | pokazatelj | samostalnik, občno ime; moški spol, ednina, imenovalnik |
dejanskega | dejanski | splošni pridevnik; nedoločena stopnja, srednji spol, ednina, rodilnik |
stanja | stanje | samostalnik, občno ime; srednji spol, ednina, rodilnik |
jezika | jezik | samostalnik, občno ime; moški spol, ednina, rodilnik |
Poleg | poleg | predlog; rodilnik |
besedilnih | besedilen | splošni pridevnik; nedoločena stopnja, moški spol, množina, rodilnik |
obstajajo | obstajati | glavni glagol; nedovršni, sedanjik, 3. oseba, množina |
tudi | tudi | členek |
korpusi | korpus | samostalnik, občno ime; moški spol, množina, imenovalnik |
govorjenih | govorjen | deležniški pridevnik; nedoločena stopnja, srednji spol, množina, rodilnik |
besedil | besedilo | samostalnik, občno ime; srednji spol, množina, rodilnik |
ki | ki | podredni veznik |
se | se | povratni zaimek;, klitična naslonskost |
uporabljajo | uporabljati | glavni glagol; nedovršni, sedanjik, 3. oseba, množina |
kot | kot | podredni veznik |
infrastruktura | infrastruktura | samostalnik, občno ime; ženski spol, ednina, imenovalnik |
za | za | predlog; tožilnik |
razvoj | razvoj | samostalnik, občno ime; moški spol, ednina, tožilnik, živost=ne |
razpoznave | razpoznava | samostalnik, občno ime; ženski spol, ednina, rodilnik |
in | in | priredni veznik |
sinteze | sinteza | samostalnik, občno ime; ženski spol, ednina, rodilnik |
govora | govor | samostalnik, občno ime; moški spol, ednina, rodilnik |
Ti | ta | kazalni zaimek; moški spol, množina, imenovalnik |
so | biti | pomožni glagol; sedanjik, 3. oseba, množina, nezanikani |
manjši | majhen | splošni pridevnik; primernik, moški spol, ednina, imenovalnik, določnost=da |
od | od | predlog; rodilnik |
večine | večina | samostalnik, občno ime; ženski spol, ednina, rodilnik |
besedilnih | besedilen | splošni pridevnik; nedoločena stopnja, moški spol, množina, rodilnik |
korpusov | korpus | samostalnik, občno ime; moški spol, množina, rodilnik |
saj | saj | priredni veznik |
je | biti | pomožni glagol; sedanjik, 3. oseba, ednina, nezanikani |
na | na | predlog; tožilnik |
voljo | volja | samostalnik, občno ime; ženski spol, ednina, tožilnik |
manj | manj | splošni prislov; primernik |
posnetih | posnet | deležniški pridevnik; nedoločena stopnja, ženski spol, množina, rodilnik |
zvočnih | zvočen | splošni pridevnik; nedoločena stopnja, moški spol, množina, rodilnik |
materialov | material | samostalnik, občno ime; moški spol, množina, rodilnik |
kot | kot | podredni veznik |
samih | sam | splošni pridevnik; nedoločena stopnja, srednji spol, množina, rodilnik |
besedil | besedilo | samostalnik, občno ime; srednji spol, množina, rodilnik |
njihova | njihov | svojilni zaimek; 3. oseba, ženski spol, ednina, imenovalnik, množina svojine |
obdelava | obdelava | samostalnik, občno ime; ženski spol, ednina, imenovalnik |
pa | pa | priredni veznik |
je | biti | pomožni glagol; sedanjik, 3. oseba, ednina, nezanikani |
precej | precej | splošni prislov; nedoločena stopnja |
zahtevnejša | zahteven | splošni pridevnik; primernik, ženski spol, ednina, imenovalnik |
in | in | priredni veznik |
dolgotrajnejša | dolgotrajen | splošni pridevnik; primernik, ženski spol, ednina, imenovalnik |