Rapport Tema 1 1995

System för underlättande av informationsbevakning av WWW

  1. Inledning
  2. Hur www fungerar
    1. URL - adressen
    2. HTML - filformatet
    3. Andra format
  3. En informationsbevakares arbetssätt
  4. Önskat arbetssätt
  5. Möjlig lösning
  6. Proxy
  7. Vår användning av en proxy
  8. Söksystem

Inledning

World-Wide Web, www, är ett för publicering av elektronisk information. En av de mest intressanta aspekterna är att man i vilket www-dokument som helst kan ha länkar till vilket annat www-dokument som helst. Följer man länken kommer man att få se dokumentet länken pekar på, inhämtat från stället där det publiserats. Har man möjlighet att publicera www-dokument kan man publisera sina länkar som ett www-dokument. Därigenom kan man skaffa ett sorts referensbibliotek, där varje "bok" hämtas i senaste upplagan närhelst man vill läsa den.

Informationsbevakning av www går ut på att skapa och underhålla ett dylikt referensbibliotek. Ofta har det skötts helst utan andra verktyg än en www-läsare och en texteditor. Med dessa verktyg blir det dock rätt mycket manuellt arbete som man skulle vilja slippa. Jag kommer här att skissa på ett system för att med små tillägg till existerande programvaror påtagligt underlätta arbetet.

Systemet består av två delar. Dels en databasdel, som innehåller länkarna, vilken/vilka kategorier de tillhör, nyckelord, beskrivning etc. Referensbiblioteket byggs därefter automatiskt upp utifrån innehållet i databasen.

Den andra delen består av en speciell proxy-server. Använder man en proxy-server hämtas alla www-dokument via den. Det speciella med proxy-servern är att den lägger till en knapp till varje dokument. Trycker man på knappen kommer man rakt in i databasens inmatningsdel. I och med detta blir insamlandet av nya sidor mycket enkelt.

Hur www fungerar

URL - adressen

En viktig egenskap hos www är möjligheten att adressera elektronisk information på ett enhetligt sätt. En adress heter i www-samanhang URL, vilket står för Uniform Resource Locator.

URLens första del talar om vilken tjänst som dokumentet finns att hämta via. En av wwws stora fördelar är nämligen att man kan adressera dokument oberoende av hur de är publiserade rent tekniskt.

Den vanligaste formen av en URL är:
tjänst://dator/sökväg

Där tjänst talar om vilken av internets olika tjänster just det här dokumentet finns att hämta via. dator är ett vanligt datornamn, av typen dator.underdomän...domän.land. sökväg information om var på den aktuella datorn dokumentet finn att tillgå.

Tjänstens identifieras av det namn som står innan det första kolonet i URLen. I URLen http://www.lysator.liu.se/~wing betyder http att dokumentet finns att tillgå via HyperText Transport Protocol.

De vanligaste tjänsterna är:

http
HyperText Transport Protocol, tjänst anpassad för att överföra WWW-dokument
ftp
File Transport Protocol, tjänst för filöverföring. Mer avancerad än http, och även mer resurskrävande.
gopher
Menysystem för sökning av information. Numera rätt ute.

news
Konferenssystem med tusentals grupper och miljontals användare. Skiljer sig från de övre tjänsterna eftersom meddelandena som publiceras i news inte sparas mer än någon vecka.
mailto
Email-adress. Skiljer sig från de övriga tjänsterna iom att den inte adresserar ett dokument utan en brevlåda man kan skicka meddelanden till.

Http-, ftp- och gopher-URLer fungerar ungefär på samma sätt. Man specifierar ett dator och en sökväg på den datorn. För www-användning är dock http vanligast, beroende dels på att det är minst resurskrävande, dels på att det medger viss dubbelriktat kommunikation. Ftp är fortfarande vanligast för publisering av programvaror. Gopher finns kvar av gammal vana.

Datorn man specifierar i http-, ftp och goper-URLen kan fysiskt befinna sig var som helst i världen, bara den är inkopplad till Internet. Det är det som är den verkliga styrkan bakom systemet, en URL kan adressera information var den än månne vara lagrad.

Html - filformatet

Html är filformatet de flesta dokumenten är skrivna med i www. Det är idag endast i html-dokument man kan lägga in URLer som refererar till andra dokument. Det finns inga begränsningar hur man kan lägga länkar i html, de kan ligga i en vackert strukturerad meny likväl som knutna till enstaka ord inne i ett stycke text.

Html består av styrkoder, och text. Styrkoderna talar om hur texten ska visas, vad som ska vara i fetstil, vad som ska vara rubrik eller vad som ska vara en länk. Det hela går utmärkt att skriva för hand, och det är så de flesta html-skrivare arbetar.

Html-dokument läses bäst från skärmen. Det går bra att själv ställa in hur brett fönster man vill läsa det i och med vilka typsnitt. Dessa inställningar gör att man själv kan få den miljö där man läser snabbast. Att skriva av html-dokument kan å andra sidan vara lite knöligt. Länkningsmöjligheten gör nämligen att man ofta att ett dokument är uppdelat på flera html-dokument, vilket gör att man först manuellt måste ta reda på vilka html-dokument man ska skriva ut, för att få med allt.

Andra format

Även om det bara är i html-dokument som man kan lägga in URLer finns det dokument i en mängd andra format i www. Ett sådant dokument får dock ses som en slutstation, man kan läsa det men inte hitta vidare via nån länk från det. Vanliga format är ren text, bilder, ordbehandlingsformat som word eller postscriptdokument redo för utskrift.

Ett annat mycket intressant format är pdf, Portable Documet Format, från Adobe. Formatet är redo för att skrivas ut, med tryckkvalitet, men kan även läsas på skärmen. I senare versioner kommer man också att kunna ha länkar med URLer i ett pdf-dokument.

En informationsbevakares arbetssätt

Det vanligaste sättet att arbeta idag är att man klickar runt i www, efter bästa förmåga. Hittar man ett dokument som är intressant sparar man URLen till det. URLerna använder man sedan som länkar i ett html-dokument, som man sedan publicerar. Vanligtvis skriver man in lite information om de länkade sidorna, så att ens målgrupp kan göra sig en uppfattning om vad sidan handlar om innan de ser den.

Det finns flera nackdelar med det här arbetssättet.

  1. Manuell hantering av URLen är jobbigt och kan lätt leda till fel. Till skillnad från vanliga adresser finns det ingen snäll brevbärare som tolkar URLer, en bokstav fel och dokumentet kommer aldrig fram
  2. URLer åldras. Dokument flyttas relativt ofta. Man måste därför manuellt gå igenom hela referensbiblioteket med jämna mellanrum för att se om det fungerar.
  3. Det kan lätt bli väldigt många länkar, vilket gör att användare kan få svårt att hitta även i referensbiblioteket, vars uppgift var att underlätta sökning av information på www. Ett söksystem vore en klart smart idé.

Önskat arbetssätt

  1. När man ser en intressant sida i sin www-läsare ska man direkt, med t ex en knapptryckning, kunna lägga in den i referensbiblioteket. Ingen manuell hantering av URLen ska vara nödvändig.
  2. URLerna ska lagras i ett format som möjliggör att ett program automatiskt kontrollerar om de fungerar, och varnar informationsbevakningen när någon slutar fungera.
  3. Knutet till URLerna ska vara tillräcklig information för att möjliggöra sökningar bland dem.
  4. Det ska vara enkelt att lägga in och ändra denna information

Möjlig lösning

En lösning vore att man har ett filter som lägger till en knapp överst på varje www-sida man tittar på. Ett tryck på denna knapp tar en till en sida, där man kan lägga in sökinformationen om URLen.

Filtret görs som en sk www-proxy.

Proxy

En proxy är en server som kan hämta ett dokument om man ger den en URL. Alla www-läsare kan använda proxies. Vanligtvis gör www-läsaren hela hämtningsjobbet själv, men används en proxy lämnar den bara URLen och låter proxyn jobba.

Användningsområdet är främst att låta användare som sitter bakom en sk brandvägg att nå www. En brandvägg stoppar av säkerhets(svep)skäl trafik över internet, och kan ofta vara uppsatt så den stoppar den trafik som behövs för att hämta www-dokument. En proxy ställs då i nätet så att den kan hämta dokumenten. Alla maskiner som ska nå www behöver då bara nå proxy-servern, vilket anses säkrare.

En annan anledning är att man kan låta proxyn lagra dokument som har hämtats. Om någon senare vill se samma dokument kan det hömtas från proxyn, istället för att behöva hämtas från andra sidan jordklotet eller var det nu kan befinna sig.

Vår användning av en proxy

Anledningen till att vi kan ha nytta av en proxy är att alla dokument som hämtas av en www-läsare som utnyttjar en proxy går via proxyn. Man kan då modifiera dokumenten genom att t ex lägga till en knapp längst upp.

Att skriva en proxy är dock inte särskilt enkelt. Det är många tjänster och specialfall inom tjänsterna att ta hänsyn till. Men att koppla upp sig mot en proxy för att hämta ett dokument är väldigt enkelt. Alltså fixar man så att allt den modifierande proxyn gör är att koppla upp sig mot en existerande proxy, hämta resultatet och modifiera det.

En mycket stor fördel med att använda en proxy för det här ändamålet är att www-läsarens alla finnesser kommer att fungera även när man använder det här verktyget. Bokmärken kommer att kunna följas. Markeringar av vilka sidor man läst likaså.

Söksystem

Varje post i söksystemets databas kommer att innehålla följande: Det finns flera sätt att hantera kategorier och sökord. Man kan tillåta vilka som helst, eller ha en lista med tillåtna. Fördelen med det senare är att det då är lättare att få ordning på det. Nackdelen att det kan bli osmidigare.

Det bör finnas många olika sätt att presentera innehållet. Dels som vanliga sidor, men alla poster inom en viss kategori listade rakt upp och ner. Dels som rena sökmotorer, där man får skriva in vad man är intresserad av och köra en utsökning. Alla söker inte information på samma sätt, det är därför viktigt att det finns flera olika sätt att få fram informationen.