.st0{fill:#FFFFFF;}

Kuidas luua LLM-veebiämbliku sõbralik veebileht 

 June 2, 2025

By  Marko Rillo

Kui enamik disainereid aitab luua veebilehe, mis näeb väljapoole kena, siis keelemudelite jaoks on tarvis välisele ilule lisaks mõelda väga selgelt läbi ka lehekülje “sisemine ilu”. Kui sisemine ilu on selgelt ette valmistatud, siis saavad otsingmootorite ja keelemudelite robotitest “ämblikud” ja “veebikaapijad” andmed selgema struktuuri alusel kätte.

Kõigepealt kiire ülevaade andmekogumisrobotite terminoloogiast:

  • Keelemudeli veebiämblik – “LLM web crawler” on nagu tavalise otsingumootori automatiseeritud andmekoguja, mis liigub ühelt veebilehelt teisele ja kogub sealt kättesaadavat avalikku sisu, et seda lisada keelemudeli treeningandmetesse või otsinguindeksisse. Seda tehakse enamasti automatiseeritult ja perioodiliselt.
  • Keelemudeli veebikaapija – “LLM web scraper” keskendub konkreetselt veebilehelt andmete korjamisele. Ta teeb seda enamasti süsteemselt ja struktureeritult keskendudes konkreetsetele, tekstilõikudele, pildiallkirjadele.

Veebiämblik on enamasti “viisakas külaline”, mis tuleb leheküljele, tutvustab ennast veebileheküljele ametliku nimega (“Tere, mina olen see ja see bot”) otsib leheküljelt faili url/robots.txt ning url/sitemap.xml ja vastavalt nendes toodud juhisele pärib ainult lubatud infot sellise sagedusega nagu neil lubame. Antud postituses räägime just sellest.

Veebikaapija peidab ennast tihti tavalise veebibrowseri sildi taha ja sikutab andmeid meie tahtest sõltumatult. Isegi kui tegemist on materjalidega, millele on piirangud ette antud, mida me ei taha keelemudeli arendajatele kasutamiseks anda. Enamasti eelistame kaapijaid oma lehekülgedele mitte lasta, kuna nad koormavad serverit, varastavad valimatult ja kipuvad meid kurjalt ära kasutama. Neist vast millalgi edaspidi.

Tehniline valmidus LLM-veebiämblikute vastuvõtuks

robots.txt fail

Enne kui läheme sisuliste teemade juurde, tuleb avada tehnilist poolt. Esimese asjana tuleb määratleda oma kodulehekülje juurkataloogis paikneva robots.txt faili sisu, mis selgitab, et millised veebiämblikud ja millele juurde pääsevad. All on lihtne näidis:

# Luba olisematele AI agentidele juurdepääs - OpenAI, Perplexity ja Claude
User-agent: GPTBot
Allow: /

User-agent: PerplexityBot  
Allow: /

User-agent: ClaudeBot
Allow: /

# Keela administraatori alad
Disallow: /admin
Disallow: /private

sitemap.xml fail

Järgmiseks vaata, et kas kõige olulisem veebilehekülje sisu kajastub sitemap.xml failis, mis paikneb samuti veebilehekülje juurkataloogis. Sitemap.xml ütleb -> milliseid lehekülgi ja kui sageli lugeda. Enamikel sisuhaldussüsteemidel on vahendid, mis genereerivad sitemap.xml faili regulaarselt ja automaatselt. Teistel juhtudel tuleb kas endal kirjutada skript või lisada see info käsitsi. Allpool toon ühe näidise – kuidas nügida veebiämblikud kord kuus uuendama oma sisu ühel EBSi koolitusleheküljel, kus on kirjas Visioonisprindi info:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://ebs.ee/visioonisprint</loc>
    <lastmod>2025-08-15</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
  </url>
</urlset>

Semantiline valmidus LLM-veebiämblike toetamiseks

Pealkirjade jaotus

Järgmiseks sisust mida veebiämblikele tarvis näidata, et nad paremini infot töödelda suudaksid. Veebilehekülje formaatimisel on oluline teatud struktuuri järgimine, millest kõige kriitilisem on veebilehel kasutatavate peatükkide pealkirjade korrektne struktuur.

  • Üks H1 taseme pealkiri kogu lehekülje kohta. Seejuures oleks ideaalne, kui H1 taseme pealkirja kõige olulisem sõna kattuks URL-il asetseva nimetusega. Näiteks – juhul kui URL on: /visioonisprint , siis mõistlik on kasutada H1 “Visioonisprint. Juhile, kes soovib tuleviku osas selgust luua,” mitte näiteks H1 “Visioonikoolitusel sõnastab iga juht oma visiooni”.
  • H2-taseme pealkirjad eristavad olulisemad dokumendi sektsioonid.
  • H3-taseme pealkirjadel on alampeatükid
  • H4-taseme pealkirjad kirjeldavad lehekülje detaile

Näide koolituslehekülje struktuurist on siin:

<h1>Visioonisprint</h1>

<h2>Koolitusprogrammi ülevaade</h2>
<h3>Kellele mõeldud</h3>
<h3>Miks osaleda</h3>

<h2>Praktiline info</h2>
<h3>Toimumisaeg</h3>
<h3>Hind</h3>
<h3>Asukoht</h3>

<h2>Õpiväljundid</h2>
<h3>Programmi eesmärgid</h3>
<h3>Programmi läbinu oskab</h3>

<h2>Ajakava ja moodulid</h2>
<h3>Moodul 1</h3>
<h3>Moodul 2</h3>

<h2>Koolitajad</h2>
<h3>Koolitaja 1</h3>
<h3>Koolitaja 2</h3>
<h3>Koolitaja 3</h3>

<h2>Registreerumine</h2>
<h3>Registreerumise tähtaeg</h3>
<h3>Registreerumise detailid ja link</h3>

Sektsioonid

LLM-id otsivad spetsiifilisi elemente lehekülgedelt:

<nav>
  <!-- Navigatsioonilingid -->
</nav>

<main>
  <!-- Peamine sisu -->
</main>

<article>
  <!-- Koolituse kirjeldus -->
</article>

<aside>
  <!-- Registreerimisinfo, täiendav info -->
</aside>

<details>
  <!-- Praktiline info nagu kuupäevad, hinnad -->
</details>

Pildid ja graafikud

Kuna veebiämblikud on “pimedad” ja ei suuda enamasti fotodel või joonistel asetsevaid kujutisi lugeda, siis väga oluline on kõiki leheküljele lisatud .png, .jpg, .gif ja .svg pilte kirjeldada täiendavate tekstiliste kirjeldustega. Alltoodud koodis “alt” on nähtav ekraanilugejatele ja nägemispuudega vaatajatele – seda loevad vaikimisi ka keelemudelite robotid – soovitus on selle teksti pikkus jätta alla 200 tähemärgi, lühike “title” on kuvatud kui hiir jääb pildile pidama, mis aitab samuti keelemudelitel pilti mõista ja “figcaption” võimaldab robotitele anda täiendavat sisulist konteksti – see on justnagu tavalisel veebilehel pildiallkiri.

<figure>
  <img src="visioonisprint-koolitus.jpg" 
       alt="Visioonisprindi koolituse 3 osalejat lahendavad disainimõtlemise ülesannet"
       title="Visioonisprindi koolituse foto">
  <figcaption>
    Osalejad (vasakult): osaleja 1, osaleja 2 ja osaleja 3 EBSi ruumides Visioonisprindi koolitusel ... kuupäeval
  </figcaption>
</figure>

Sisuline valmidus LLM-veebiämblikuteks

Paku LLMile küsimusi ja vastuseid

Keelemudelid toimivad justkui vektoripõhised tekstilõpetajad. Kui neile on ette antud mingi tekst, siis nad üritavad ennustada, et missugune sõna tuleb järgmiseks. Kuna inimkeel tugineb enamasti omavahelisel interaktsiooni loogikal, mille üks olulisemaid viise on küsimus-vastus, siis see on üks lihtsamini toimivaid keele elemente on samuti Korduma Kippuvate Küsimuste sarnane ülesehitus. Seejuures on hea kasuta küsimustena eeldatavasti samu küsimusi, mida kasutaja sisestab LLMi promptidena. Näiteks:

  • Kuidas koolitusega liituda? → Registreerumiseks täida vorm EBS kodulehel või võta ühendust telefonil ….
  • Kui pikalt koolitus kestab? → Visioonisprindi koolitus kestab 3 järjestikust täispäeva.
  • Kui palju koolitus maksab? → Visioonisprindi koolitus maksab … EUR + km.
  • Kes koolitust läbi viivad? → Koolitajad on: koolitaja 1, koolitaja 2, koolitaja 3.
  • Miks valida Visioonisprint? → Praktilised disainimõtlemise meetodid, mis aitavad lahendada kompleksseid äriprobleeme.
  • Miks see on parim koolitus juhtidele? → VIsioonisprint annab võimaluse süsteemselt suure pildi teemadele mõelda.

Struktureeritud loendid – loetelud ja tabelid

Keelemudelite teksti tunneb sageli ära struktureeritud loendite põhjal. Selleks on ühest küljest konkreetsete veerupealkirjade ja ridadega tabelid. Samuti aitab keelemudelit ka ammendatavate nimekirjade loetelu:

<h3>Programmi läbinu oskab:</h3>
<ul>
  <li>Tuvastada ja analüüsida ärikeskkonna väljakutseid</li>
  <li>Rakendada disainimõtlemise meetodeid</li>
  <li>Prototüüpida ja testida lahendusi</li>
  <li>Koguda ja analüüsida tagasisidet</li>
</ul>

Kokkuvõtteks

LLM-ämblike sõbralik veebilehekülg vajab:

  • Tehnilist alust: robots.txt ja sitemap.xml
  • Struktureeritud pealkirju: H1-H4 hierarhia
  • Semantilist HTML-i: main, article, section, aside
  • Kirjeldatud pilte ja graafikuid: alt, title, figcaption
  • Struktureeritud sisu: küsimused-vastused, loendid, tabelid

Need muudatused parandavad mitte ainult LLM-ide ligipääsu, vaid ka kasutajakogemust ja otsingumootorite positsioone.

Autorist ...

Marko Rillo on ettevõtja, juhtimiskonsultant ja koolitaja

Blogipostitused:

{"email":"Email address invalid","url":"Website address invalid","required":"Required field missing"}