Tehnike vektorskih vložitev za medijske aplikacije

V strojnem učenju predstavlja analiza velikih podatkov še vedno velik izziv. Izraz veliki podatki (velepodatki) označuje podatke, za katere so značilni velika količina, dinamika, negotovost in raznolikost. Predlagani projekt obravnava izziv analize jezikovno raznovrstnih in dinamičnih medijskih vsebin, ki jih v predlaganem projektu naslavljamo z uporabo naprednih metod vektorske reprezentacije tekstov (vektorske vložitve) in globokega učenja.
Dnevno nastaja vedno več medijskih vsebin, od visoko kakovostnih tradicionalnih novic do manj zanesljivih vsebin na družbenih omrežjih. Spremljanje medijskih vsebin, ki vključuje združevanje člankov po vsebini, označevanje člankov z več vrstami metapodatkov, izvajanje analiz in poročanje z vidika določenih ciljnih uporabnikov pred distribucijo vsebin, mora potekati v realnem času. Agencije za kliping, kot je slovenska agencija Kliping d.o.o., ki bo sofinancirala ta industrijski projekt, se soočajo s težavno nalogo spremljanja medijskih vsebin. Agencija Kliping mora dnevno analizirati več kot 70.000 tradicionalnih člankov in več kot en milijon objav na družbenih medijih, sestaviti 1500 poročil za svoje ciljne uporabnike ter spremljati novice tako v slovenskem medijskem prostoru kot tudi v medijih drugih držav Zahodnega Balkana, pri čemer zajemajo besedila v šestih različnih jezikih (slovenščini, hrvaščini, bosanščini, srbščini, makedonščini in albanščini) in dveh pisavah (latinici in cirilici). To nalogo trenutno v veliki meri izvajajo ročno. Najnovejše metode strojnega učenja za napredno računalniško procesiranje naravnega jezika, ki temeljijo na vektorski reprezentaciji tekstov in velikih prednaučenih jezikovnih modelih, omogočajo razvoj naprednih orodij za avtomatizirano obdelavo besedil, vključno s kategorizacijo besedil glede na njihovo tematiko ali sentiment ter samodejno tvorbo vsebinskih povzetkov iz več virov vsebin. Ta orodja so običajno omejena na posamezne jezike, imajo omejene zmožnosti prilagajanja potrebam končnega uporabnika ter niso zmožna obvladovanja kompleksnosti hierarhij kategorij novic in struktur metapodatkov, ki se uporabljajo v medijski industriji. V okviru projekta zato predlagamo razvoj naprednih večjezičnih orodij za analizo novic in vsebin na družbenih omrežjih, ki bodo pomagala avtomatizirati te procese in hkrati omogočala boljše razumevanje hitrega pretoka informacij, ki nas obdajajo.

Trajanje projekta: od 1. 10. 2023 do 30. 9. 2026

Financiranje: To delo je sofinancirala Javna agencija za raziskovalno in inovacijsko dejavnost Republike Slovenije iz državnega proračuna v okviru raziskovalnega projekta Tehnike vektorskih vložitev za medijske aplikacije (št. L2- 50070, sofinanciranega s strani agencije Kliping d.o.o.).

 

ARISLogoSlo

Ključne besede:

strojno učenje, tekstovno rudarjenje, procesiranje naravnega jezika, globoke nevronske mreže, reprezentacija dokumentov, jezikovni modeli, vektorske vložitve, spremljanje medijev

Vodja projekta:

Nada Lavrač

Sodelujoče institucije:

Institut “Jožef Stefan”

IJS_logo

Univerza v Ljubljani, Fakulteta za računalništvo in informatiko

Kliping d.o.o.