Tehnike vektorskih vložitev za medijske aplikacije

Raziskovalni projekt bo pomembno prispeval k znanosti z dosežki na področju procesiranja naravnega jezika (NLP) ter na razvoju novih NLP tehnologij za slovenščino in druge južnoslovanske jezike.

Pri raziskavah in razvoju novih NLP tehnologij se bomo v projektu osredotočili na problem kategorizacije novic, analize sentimenta in povzemanja novic. Ker se bo projekt izvajal z industrijskim partnerjem, se bomo osredotočili na razvoj robustnih in hitrih metod ter na razvoj metod, uporabnih v kontekstu učenja s sodelovanjem človeka kot uporabnika sistema, kar tudi predstavlja novost v primerjavi s tipičnimi pristopi na področju NLP. Poleg tega bodo lahko razvita orodja in rezultati koristili tudi raziskovalcem s področja družboslovja, vključno z raziskovalci na področju političnih ved in analize diskurza, saj bodo orodja omogočila obsežne analize objav v družbenih medijih in novic iz različnih virov.

Projekt bo koristil družbi in gospodarstvu. Družbeno korist bodo zagotovile razvite odprtokodne rešitve, ki bodo prosto dostopne študentom in raziskovalcem. Neposredno bo projekt koristil tudi sofinancerju, podjetju Kliping d.o.o., saj mu bo omogočil korenito digitalno preobrazbo delovnih tokov, ki se uporabljajo v podjetju. Danes se označevanje dokumentov z metapodatki večinoma izvaja ročno, zato bi imela uvedba polavtomatiziranega procesa velik vpliv v smislu hitrosti, učinkovitosti in stroškov, hkrati pa bi omogočila uvedbo novih storitev (npr. analiza sentimenta medijskih objav trenutno ni na voljo kot storitev, ker bi bila preveč zamudna). Poleg tega ima Kliping trenutno samo enojezične postopke, a ker je podjetje prisotno v več državah in obdeluje podatke v več jezikih, bo uvedba prekjezične analize zagotovila velik potencial za nove tržne priložnosti.

Kar zadeva druge industrijske potenciale, bo projekt izdelal nabor rešitev, ki jih bodo lahko ponovno uporabila druga podjetja (koda bo javno dostopna, da bo drugim podjetjem omogočila učenje lastnih modelov, čeprav bodo modeli, naučeni na podatkih podjetja Kliping, ostali zaupni). To bo medijskim podjetjem, mednarodnim organom za standardizacijo, kot je IPTC, in drugim omogočilo, da uporabijo ta orodja. Poleg tega lahko razvite rešitve koristijo evropskim malim in srednjim podjetjem, kot je TEXTA (eden od partnerjev zaključenega evropskega projekta EMBEDDIA, ki ga je koordiniral IJS), da lahko še širše prispevajo k povečanju konkurenčnosti evropske industrije.

Za družbo so koristi večplastne. Razvoj rešitev za jezike z manj viri je pomemben za povečanje zastopanosti neprevladujočih jezikov v digitalnem prostoru. Orodja za spremljanje medijev so pomembna za razumevanje družbe in lahko omogočijo raziskovalcem in širši javnosti, da razkrijejo npr. spremembe sentimenta in poročanja skozi čas (glavni poudarek delovne skupine na longitudinalni analizi). Nova raziskovalna in uporabna naloga prepoznavanja odtisov okoljskih socialnih in upravljavskih meril (ESG), ki temelji na medijskih vsebinah, ima potencial za promocijo teh konceptov v podjetjih, kar bi omogočilo tudi odgovornejšo družbo. Družbeno korist bodo zagotovile tudi razvite odprtokodne rešitve, ki bodo prosto dostopne študentom in raziskovalcem.

Podroben opis vsebine delovnega sklopa

Delovni sklop 1: Luščenje ključnih besed in kategorizacija tematik.

Delovni sklop 1 bo razvil nenadzorovane in nadzorovane večjezične metode za ekstrakcijo ključnih besed, modeliranje tematik in kategorizacijo dokumentov, vključno s hierarhično klasifikacijo z več oznakami. Kategorizacija bo temeljila na standardizirani kategorizaciji kot npr. po IPTC standardu medijskih tematik z več kot 1200 izrazi (glej https://www.iptc.org/standards/media-topics/), organiziranih v treh hierarhičnih ravneh, medtem ko nabor tematik, ki jih je za potrebe svojih strank razvilo podjetje Kliping, vključuje približno 20.000 večjezičnih tematik/kategorij. Kategorizacija bo dinamična in jo bo mogoče razširiti.

Naloga 1.1: Zaznavanje ciljev in ključnih besed. Pristop pridobivanja ključnih besed bo temeljil na prilagoditvi naše nadzorovane metode pridobivanja ključnih besed TNT-KID (Martinc idr., 2020b) z učenjem sistema na novih zbirkah podatkov in vključno z informacijami o prepoznavanju imenskih entitet (Ljubešić, 2020). Pristopi bodo prilagojeni tudi za identifikacijo ciljev, specifičnih za stranke (tj. entitet, ki so pomembne za stranke). Predlagani sistem bo obravnaval različne vrste dokumentov in bo prilagodljiv za pokrivanje različnih potreb strank ter jezikov.

Naloga 1.2: Razvrščanje dokumentov v kategorije IPTC. Oznake IPTC so hierarhično standardizirane strukturne oznake. V prvem koraku bo razvit polavtomatski proces, ki bo ustrezal kategorizaciji tem po meri v standardiziran nabor oznak IPTC; izhajali bomo iz naše metode, razvite za finščino (Pranjić idr., 2021). Nato se bomo lotili dveh novih izzivov: (a) aktivno učenje (Bouguelia idr., 2018), ki omogoča samodejno izboljšanje na podlagi povratnih informacij strokovnjakov in uvedbo novih kategorij (nabor oznak IPTC se dinamično spreminja) in (b) večjezičnost z uporabo večjezičnih predstavitev BERT z integracijo osnovnega znanja (na podlagi naše metode Koloski idr., 2022b), ki omogoča IPTC kategorizacijo po jezikih.

Naloga 1.3: Dodelitev dokumentov v prilagojene kategorije. Pri tej nalogi se bomo osredotočili na problem kategoriziranja dokumentov v nabor oznak, ki obsega približno 20.000 ciljno prilagojenih tematik. Pristop bo temeljil na kombinaciji ekstrakcije ključnih besed (iz naloge 1.1) in nenadzorovanega učenja iskanja dokumentov, podobnih tistim, ki pripadajo določeni tematiki. V ta namen bomo izkoristili različne vložene predstavitve (npr. predstavitve znotraj stavčnih transformerjev (Reimers in Gurevych, 2019)). Za nadzorovane metode bomo prilagodili tiste za ekstremno večciljno klasifikacijo (na podlagi metrik, ki temeljijo na grafih v Dahiya idr. (2021)), da se omogoči dodeljevanje dokumentov v tako velik nabor kategorij (za oznake IPTC in prilagojene teme).

Delovni sklop 2: Analiza razpoloženja.

Delovni sklop 2 bo razvil metode za analizo sentimenta, ki bodo omogočale samodejno oceno sentimenta danega dokumenta (npr. novičarski članek/objava na družbenem omrežju) z vidika določene stranke in/ali v zvezi z določenim ciljem (npr. podjetje, izdelek, posameznik) (naloga 2.1). Metode bomo nadgradili v napredne metode, ki bodo sposobne analize ciljev v odprti domeni (ocenjevanje sentimenta do katerega koli cilja, ne nujno tistih, ki so znani ali prisotni v podatkih, ko so bili modeli ustvarjeni; naloga 2.2) in sledenja sentimenta, ki se spreminja skozi čas (naloga 2.3). Za izboljšanje robustnosti in zanesljivosti rezultatov bodo pristopi prilagojeni z našim Bayesovim pristopom povprečenja za LPLM (Miok idr., 2022).

Naloga 2.1: Analiza sentimenta na ravni dokumenta. Gradili bomo na dosedanjem delu na področju analize sentimenta na ravni dokumenta, ki jo obravnavamo kot problem klasifikacije besedila (Pelicon idr., 2020). Ta pristop bomo razširili na zbirke dokumentov, označene s sentimentom do določenega cilja ali glede na stranko (učenje klasifikatorja za vsako stranko/cilj z uporabo dokumentov, označenih samo za to stranko/cilj). Poleg javnih naborov podatkov o sentimentu bomo uporabili Klipingove obstoječe anotacije sentimenta glede na ciljno stranko.

Naloga 2.2: Ciljna analiza sentimenta. Čeprav pričakujemo, da bodo modeli razviti v nalogi 2.1 dovolj natančni in robustni, ima ta pristop več pomanjkljivosti: zahteva specifične modele za vsak cilj, zahteva označene podatke za vsak cilj in se lahko uporablja samo za vnaprej znane cilje. Ker se število ciljev povečuje, lahko to zahteva preveč računalniških virov, večje stroške označevanja podatkov ter več časa. Bolj ambiciozen pristop bi bil razvoj posplošenih modelov, ki jih je mogoče pogojevati z informacijami, specifičnimi za cilj, in tako dati različne relativne ciljne rezultate z uporabo enega samega modela (glej npr. Xue in Li, 2018). Začetno delo bo uporabilo isti znani nabor ciljev kot v nalogi 2.1, vendar bomo z uporabo razlage izluščili informacije, specifične za dani cilj z uporabo tehnike, kot je naš TransSHAP (Kokalj idr., 2021). Nato bomo raziskali odprto domenski pristop k prilagajanju velikih jezikovnih modelov s ciljnimi predstavitvami, kar omogoča razširitve na kateri koli cilj tudi brez eksplicitno označenih ciljno specifičnih učnih podatkov.

Naloga 2.3: Sledenje indeksu družbene odgovornosti na podlagi analize sentimenta skozi čas. Prilagodili bomo ustrezne modele iz nalog 2.1 in 2.2 za sledenje spremembam sentimenta glede na cilj skozi čas. To bomo preizkusili na nalogi, ki je posebej zanimiva za Kliping: sledenje spremembam sentimenta do okolja, družbena in upravljavska (ESG) vprašanja (npr. onesnaženost zraka, ogljični odtis, dobro počutje zaposlenih), v zvezi s katerimi je v zadnjih letih mogoče opaziti pomembne premike. Kategorije ESG obstajajo v hierarhiji IPTC in jih je zato mogoče definirati prek standardne terminologije IPTC ali z uporabo modelov za te kategorije iz naloge 1.2. V ta namen bomo naučili specifične različice ciljnih modelov iz naloge 2.2 za te kategorije in uporabili segmente nabora podatkov iz določenega obdobja za izdelavo časovno odvisnega »indeksa« razpoloženja ESG za poljubno podjetje.

Delovni sklop 3: Longitudinalno spremljanje medijev.

V delovnem sklopu 3 bomo razvili metode za longitudinalno spremljanje medijev, pri čemer bomo združili metode za diahrono semantično analizo z metodami za analizo sentimenta iz delovnega sklopa 2, jih prilagodili obdelavi večjezičnih podatkov in omogočili ciljno usmerjeno analizo. Analizirali bomo na primer, kako se poročanje o znanosti spreminja skozi čas tako z vidika poročanja kot tudi z vidika sentimenta.

Naloga 3.1: Longitudinalno spremljanje medijev v enem jeziku. Nadgradili bomo svojo obstoječo metodo za diahrono analizo medijskega diskurza z uporabo časovno zamejenih kontekstualnih besednih vložitev in gručenja (Montariol idr., 2021). S to metodo lahko za določeno besedo prepoznamo razločevalne pomenske asociacije skozi čas, pa tudi besede iz določene teme, ki so se najbolj spremenile. Tako lahko na primer analiziramo, kako so se skozi leta spreminjale novice o znanosti. Prvotno metodo bomo nadgradili na dva načina. Prvič, namesto tega, da se besedne rabe razvršča v vnaprej določeno število gruč, bo število gruč samodejno določeno z združevanjem na podlagi razdalje med njimi in na podlagi testiranja algoritmov, ki vključujejo samodejno določanje števila gruč. Drugič, ker so imenske entitete zelo pomembne v medijskem diskurzu, bomo raziskali, kako lahko z metodami povezovanja imenskih entitet (npr. združevanje Albert Einstein in Einstein v isto entiteto) in ločeno obravnavo njihovih besednih vložitev izboljšamo sedanjo metodo, ki ne razlikuje med imenskimi entitetami in drugimi besednimi vložitvami. Nato bomo združili podatke o semantičnih premikih s podatki o sentimentu iz delovnega sklopa 2 in omogočili skupno longitudinalno raziskovanje semantike in sentimenta. Vsak semantični grozd je lahko označen z različnimi oznakami za sentiment in analiza bo pokazala konotacijo z vidika sentimenta za vsako besedno rabo skozi čas.

Naloga 3.2: Večjezična longitudinalna analiza medijev. Za potrebe obdelave večjezičnega korpusa Kliping bomo svojo prvotno metodo (Montariol idr., 2021) prilagodili temu, da bo omogočala večjezično longitudinalno analizo novic. Najprej bomo preizkusili neposredni pristop z večjezičnimi velikimi jezikovnimi modeli, ki vsebujejo skupno predstavitev jezikov in bi načeloma lahko omogočali semantično gručenje besednih rab za vsako časovno obdobje v različnih jezikih. Za ta pristop bomo prilagodili metode interpretacije gruč, ki temeljijo na ključnih besedah, z medjezikovnim preslikavanjem ključnih besed; za skupno analizo semantičnih premikov in sentimenta skozi čas bomo uporabili večjezične modele za napovedovanje sentimenta, ki jih bomo razvili v delovnem sklopu 2. Drugi (tj. rezervni) pristop bo temeljil na strojnem prevajanju in sledenju semantičnim premikom v prevedenih besedilih.

Delovni sklop 4: Povzemanje dokumentov.

V delovnem sklopu 4 bomo razvili metode za ustvarjanje povzetkov, ki ne bodo omogočale le povzemanja posameznih dokumentov, ampak tudi izdelavo povzetkov za več dokumentov, vključno z novicami in družbenimi mediji, s kombinacijo izvlečnih in abstraktivnih metod povzemanja. Razvili bomo orodja za tipičen vsakodnevni primer rabe podjetja Kliping, ko je treba povzeti več (npr. 5 do 10) dokumentov, ki pokrivajo enako vsebino, pomembno za različne ciljne stranke. Pri tem bomo upoštevali zahteve posameznih strank in tako za isti nabor besedil omogočili ustvarjanje različnih povzetkov in strankam s posebnimi interesi ponudili ciljno usmerjene povzetke.

Naloga 4.1: Razpoznavanje zgodb. Z gručenjem bomo nabor člankov za vsako stranko razvrstili v skupine, ki obravnavajo isto zgodbo. Pri tem bomo uporabili metode za detekcijo dogodkov, gručenje člankov in modeliranje tem, kot je BERTopic (Grootendorst, 2022). Ker so entitete in ključne besede zelo pomembne za to nalogo, bomo te informacije iz delovnega sklopa 1 poskušali vključiti v naše metode.

Naloga 4.2: Splošno povzemanje. Za vsako skupino člankov, pridobljeno v nalogi 4.1, bomo ustvarili povzetek z uporabo izvlečnega povzemanja, tj. z učenjem modelov, da izberejo najpomembnejše stavke iz gruče člankov. Nalogo povzemanja bomo obravnavali tudi kot nalogo tvorjenja besedila in učili različice modelov T5, BART in GPT-3, da bodo sposobni abstraktivnega povzemanja. Poleg javno dostopnih podatkov bomo za učenje teh modelov uporabili tudi obstoječe ročno napisane povzetke Klipinga. Razviti pristopi bodo medjezikovni (zaradi učenja na večjezičnih učnih podatkih) in večjezični (omogočeno bo povzemanje v jezikih z zadostno prisotnostjo v jezikovnih modelih in naborih podatkov).

Naloga 4.3: Ciljno usmerjeno povzemanje. Medtem ko bomo v nalogi 4.2 razvili orodja za splošno povzemanje, jih bomo v nalogi 4.3 prilagodili specifičnim ciljem (tj. strankam), česar se doslej na področju obdelave naravnega jezika še ni raziskovalo. Najboljši pristopi iz naloge 4.2 bodo nadgrajeni tako, da bodo bolj prilagojeni strankam z upoštevanjem njihovih različnih posebnih zahtev. Razvili bomo več metod za povzemanje, ki bodo prilagojene posameznim strankam: a) preprosta ekstrakcija stavkov (ali delov besedila), ki vsebujejo ciljno entiteto; b) učenje/doučitev najboljših nevronskih modelov za izvlečno povzemanje na obstoječih povzetkih, ki so bili narejeni za posamezno stranko; c) učenje/doučitev najboljših nevronskih modelov za abstraktivno povzemanje na obstoječih povzetkih, ki so bili narejeni za posamezno stranko; in d) uporaba kombinacije zgornjih metod, da bi dobili jedrnate in natančne povzetke, prilagojene za posamezno stranko.

Trajanje projekta: od 1. 10. 2023 do 30. 9. 2026

Financiranje: To delo je sofinancirala Javna agencija za raziskovalno in inovacijsko dejavnost Republike Slovenije iz državnega proračuna v okviru raziskovalnega projekta Tehnike vektorskih vložitev za medijske aplikacije (št. L2- 50070, sofinanciranega s strani agencije Kliping d.o.o.).