O bazi: Baza višerječnih izraza hrvatskoga jezika (Croatian Multiword Expressions Database)

Sučelje za Bazu višerječnih izraza predviđeno je kao osnovno sučelje u koje će suradnici unositi podatke za višerječne izraze različite kategorizacije te za poslovice i frazeme koji će kasnije, s obzirom na postavljene ciljeve, biti izdvojeni u dvije posebne javno dostupne i pretražive baze. Struktura sučelja sadržavat će ukupno jedanaest stupaca: uz osam stupaca koje sadržava Kolokacijska baza (natuknica, vrsta riječi, višerječni izraz (tekst), sinonimi i varijante, oznaka za vrstu višerječnoga izraza, stil i struka (uporabni kontekst), značenje višerječnoga izraza te primjeri iz jezične prakse), sučelje nove baze višerječnih izraza bit će prošireno trima novim stupcima: struktura višerječnoga izraza (opis morfosintaktičkih obilježja višerječne sveze), tematsko polje (za poslovice i frazeme) i izvor (za primjere). U postojećoj Kolokacijskoj bazi sustavno su popunjeni samo stupci natuknica, tekst (višerječni izraz) i oznaka vrste sveze. U novome sučelju tijekom trajanja projekta svi će stupci biti popunjeni potrebnim podatcima ovisno o vrsti višerječnoga izraza, što će u konačnici rezultirati različitim mogućnostima pretraživanja podataka u bazi u skladu s potrebama i očekivanjima korisnika koji će se služiti Bazom kao izvorom jezičnih podataka. Popunjavanje stupaca provodit će se na sljedeći način: za frazeme i poslovice popunjavat će se stupci: natuknica, vrsta riječi, višerječni izraz (frazem ili poslovica), struktura, sinonimi i varijante, oznaka, tematsko polje, primjer, izvor. Za ostale višerječne izraze (opće kolokacije, kolokacije unutar jezika struke i višerječni nazivi, pragmemi, gramatičke sveze, slobodne sveze) ispunjavat će se svi stupci osim stupca tematsko polje (koje će u javno dostupnoj inačici biti isključeno iz vidljive strukture), a to su: natuknica, vrsta riječi, višerječni izraz, struktura, sinonimi i varijante, oznaka, stil i struka, značenje, primjer, izvor. U stupcu višerječni izraz, osim osnovnoga oblika, unosit će se, ako je potrebno, i rekcijsko-valencijski podatak, što je iznimno korisno neizvornim govornicima hrvatskoga, ali i općenito pri opisu hrvatskoga jezika jer u postojećim gramatičkim i leksikografskim priručnicima hrvatskoga jezika o gramatičkim odnosima među spojevima riječi nema sustavnih podataka. S obzirom na to da se projektni prijedlog temelji na podatcima iz Kolokacijske baze, početna građa za Bazu višerječnih izraza uključivat će sveze i natuknice iz te baze. Obuhvatit će one višerječne izraze koji su u Kolokacijskoj bazi u stupcu 'oznaka sveze' označeni oznakom S. Takvih je izraza 23 000, a uključuju ukupno 6700 jednorječnih leksema koji tvore jedan ili više višerječnih izraza, a u svakoj projektnoj godini bit će uneseno i obrađeno 5750 višerječnih izraza. U Bazi višerječnih izraza pojedinačne će sveze ovisno o vrsti dobiti nove odgovarajuće oznake. Kategorizacija oznake sveze za svaki višerječni izraz određivat će se i unositi prema postojećim teorijskim kriterijima koji će biti opisani na mrežnoj stranici projekta u okvirima navedene literature (usp. 4. Reference). S obzirom na ukupan broj višerječnih izraza koji će tijekom projektnoga razdoblja biti uneseni u mrežno sučelje, u svakoj je projektnoj godini predviđeno urediti približno 8000 višerječnih izraza, a uređivanje obuhvaća unos podataka u jedanaest stupaca.

Niste uspjeli pronaći traženo?

Kontaktirajte nas te ćemo vam pomoći u pronalasku odgovora na vaše pitanje

Kontakt