Informationsbevakning av www går ut på att skapa och underhålla ett dylikt referensbibliotek. Ofta har det skötts helst utan andra verktyg än en www-läsare och en texteditor. Med dessa verktyg blir det dock rätt mycket manuellt arbete som man skulle vilja slippa. Jag kommer här att skissa på ett system för att med små tillägg till existerande programvaror påtagligt underlätta arbetet.
Systemet består av två delar. Dels en databasdel, som innehåller länkarna, vilken/vilka kategorier de tillhör, nyckelord, beskrivning etc. Referensbiblioteket byggs därefter automatiskt upp utifrån innehållet i databasen.
Den andra delen består av en speciell proxy-server. Använder man en
proxy-server hämtas alla www-dokument via den. Det speciella med
proxy-servern är att den lägger till en knapp till varje
dokument. Trycker man på knappen kommer man rakt in i databasens
inmatningsdel. I och med detta blir insamlandet av nya sidor mycket
enkelt.
Hur www fungerar
URL - adressen
En viktig egenskap hos www är möjligheten att adressera elektronisk
information på ett enhetligt sätt. En adress heter i www-samanhang
URL, vilket står för Uniform Resource Locator.
URLens första del talar om vilken tjänst som dokumentet finns att hämta via. En av wwws stora fördelar är nämligen att man kan adressera dokument oberoende av hur de är publiserade rent tekniskt.
Den vanligaste formen av en URL är:
tjänst://dator/sökväg
Där tjänst talar om vilken av internets olika tjänster just det här dokumentet finns att hämta via. dator är ett vanligt datornamn, av typen dator.underdomän...domän.land. sökväg information om var på den aktuella datorn dokumentet finn att tillgå.
Tjänstens identifieras av det namn som står innan det första kolonet i URLen. I URLen http://www.lysator.liu.se/~wing betyder http att dokumentet finns att tillgå via HyperText Transport Protocol.
De vanligaste tjänsterna är:
Http-, ftp- och gopher-URLer fungerar ungefär på samma sätt. Man specifierar ett dator och en sökväg på den datorn. För www-användning är dock http vanligast, beroende dels på att det är minst resurskrävande, dels på att det medger viss dubbelriktat kommunikation. Ftp är fortfarande vanligast för publisering av programvaror. Gopher finns kvar av gammal vana.
Datorn man specifierar i http-, ftp och goper-URLen kan fysiskt
befinna sig var som helst i världen, bara den är inkopplad till
Internet. Det är det som är den verkliga styrkan bakom systemet, en
URL kan adressera information var den än månne vara lagrad.
Html - filformatet
Html är filformatet de flesta dokumenten är skrivna med i www. Det är
idag endast i html-dokument man kan lägga in URLer som refererar till
andra dokument. Det finns inga begränsningar hur man kan lägga länkar
i html, de kan ligga i en vackert strukturerad meny likväl som knutna
till enstaka ord inne i ett stycke text.
Html består av styrkoder, och text. Styrkoderna talar om hur texten ska visas, vad som ska vara i fetstil, vad som ska vara rubrik eller vad som ska vara en länk. Det hela går utmärkt att skriva för hand, och det är så de flesta html-skrivare arbetar.
Html-dokument läses bäst från skärmen. Det går bra att själv ställa
in hur brett fönster man vill läsa det i och med vilka typsnitt. Dessa
inställningar gör att man själv kan få den miljö där man läser
snabbast. Att skriva av html-dokument kan å andra sidan vara lite
knöligt. Länkningsmöjligheten gör nämligen att man ofta att ett
dokument är uppdelat på flera html-dokument, vilket gör att man först
manuellt måste ta reda på vilka html-dokument man ska skriva ut, för
att få med allt.
Andra format
Även om det bara är i html-dokument som man kan lägga in URLer finns
det dokument i en mängd andra format i www. Ett sådant dokument får
dock ses som en slutstation, man kan läsa det men inte hitta vidare
via nån länk från det. Vanliga format är ren text, bilder,
ordbehandlingsformat som word eller postscriptdokument redo för
utskrift.
Ett annat mycket intressant format är pdf, Portable Documet Format,
från Adobe. Formatet är redo för att skrivas ut, med tryckkvalitet,
men kan även läsas på skärmen. I senare versioner kommer man också att
kunna ha länkar med URLer i ett pdf-dokument.
En informationsbevakares arbetssätt
Det vanligaste sättet att arbeta idag är att man klickar runt i www,
efter bästa förmåga. Hittar man ett dokument som är intressant sparar
man URLen till det. URLerna använder man sedan som länkar i ett
html-dokument, som man sedan publicerar. Vanligtvis skriver man in
lite information om de länkade sidorna, så att ens målgrupp kan göra
sig en uppfattning om vad sidan handlar om innan de ser den.
Det finns flera nackdelar med det här arbetssättet.
Filtret görs som en sk www-proxy.
Proxy
En proxy är en server som kan hämta ett dokument om man ger den en
URL. Alla www-läsare kan använda proxies. Vanligtvis gör www-läsaren
hela hämtningsjobbet själv, men används en proxy lämnar den bara URLen
och låter proxyn jobba.
Användningsområdet är främst att låta användare som sitter bakom en sk brandvägg att nå www. En brandvägg stoppar av säkerhets(svep)skäl trafik över internet, och kan ofta vara uppsatt så den stoppar den trafik som behövs för att hämta www-dokument. En proxy ställs då i nätet så att den kan hämta dokumenten. Alla maskiner som ska nå www behöver då bara nå proxy-servern, vilket anses säkrare.
En annan anledning är att man kan låta proxyn lagra dokument som
har hämtats. Om någon senare vill se samma dokument kan det hömtas
från proxyn, istället för att behöva hämtas från andra sidan
jordklotet eller var det nu kan befinna sig.
Vår användning av en proxy
Anledningen till att vi kan ha nytta av en proxy är att alla dokument
som hämtas av en www-läsare som utnyttjar en proxy går via proxyn. Man
kan då modifiera dokumenten genom att t ex lägga till en knapp längst
upp.
Att skriva en proxy är dock inte särskilt enkelt. Det är många tjänster och specialfall inom tjänsterna att ta hänsyn till. Men att koppla upp sig mot en proxy för att hämta ett dokument är väldigt enkelt. Alltså fixar man så att allt den modifierande proxyn gör är att koppla upp sig mot en existerande proxy, hämta resultatet och modifiera det.
En mycket stor fördel med att använda en proxy för det här
ändamålet är att www-läsarens alla finnesser kommer att fungera även
när man använder det här verktyget. Bokmärken kommer att kunna
följas. Markeringar av vilka sidor man läst likaså.
Söksystem
Varje post i söksystemets databas kommer att innehålla följande:
Det bör finnas många olika sätt att presentera innehållet. Dels som vanliga sidor, men alla poster inom en viss kategori listade rakt upp och ner. Dels som rena sökmotorer, där man får skriva in vad man är intresserad av och köra en utsökning. Alla söker inte information på samma sätt, det är därför viktigt att det finns flera olika sätt att få fram informationen.