Wyszukiwarka internetowa
From Helionica
|
|
Wyszukiwarka internetowa (ang. search engines) - programy oraz strona internetowa, których zadaniem jest ułatwienie użytkownikom Internetu znalezienie informacji w sieci.
Jest kilka sposobów działania wyszukiwarek:
Spis treści |
Katalogi
W katalogach autorzy stron lub inne osoby zgłaszają stronę, zazwyczaj z krótkim opisem, po czym zostaje ona, zwykle po przejrzeniu, wpisana na listę pod danych hasłem.
Największym katalogiem jest DMOZ (http://dmoz.org/ ). DMOZ jest tworzony przez ochotników z całego świata (kilkadziesiąt tysięcy osób). Cała treść DMOZ jest dostępna jako open content w pliku XML, i można z niej korzystać w dowolnych celach, pod warunkiem, że umieści się link powrotny na stronę dmoz (szczegóły licencji na stronie http://dmoz.org/license.html ).
Wyszukiwarki oparte na analizie treści strony
Ponieważ Internet rośnie znacznie szybciej niż jakakolwiek grupa ludzi może go katalogować, oraz z powodu wad katalogów (np. pod danym hasłem może znajdować się tysiące stron), powstały wyszukiwarki, które przeszukują Internet analizując zawartość stron. Kiedy użytkownik poda wyszukiwarce zapytanie, ona odpowie mu łączami do stron, które uzna, w zależności od użytego algorytmu, za najbardziej odpowiednie.
Wyszukiwarki oparte na tej zasadzie mogą objąć znacznie większą część sieci niż katalogi. Niestety są one bardzo podatne na nadużycia, przez co użytkownik zamiast użytecznych informacji dostaje linki na strony nie mające nic wspólnego z jego zapytaniem. Szczególnie wyspecjalizowały się w tym strony pornograficzne.
Wyszukiwarki oparte na analizie topologii sieci
Aby przeciwdziałać temu, wyszukiwarki zaczęły stosować analizę topologii sieci. Tak więc stronę uważa się za odpowiadającą zapytaniu "britney spears", jeśli wiele stron na temat "britney spears" do niej linkuje. Strona porno z nagimi zdjęciami Britney Spears, niezależnie od własnej treści, i niezależnie od całkowitej liczby linków (głównie z innych stron porno) na nią, nie będzie w ten sposób uznana za związaną z tematem. Natomiast jeśli zada się zapytanie "britney spears nude", strona ta zostanie uznana za istotną, ponieważ linkuje na nią wiele stron o tematyce "nude".
Początkową istotność na podstawie prostej heurystyki, po czym zwykle używa się algorytmu losowego skakania po linkach.
Pierwszą wyszukiwarką, która zastosowała zaawansowane algorytmy analizy topologii sieci był Google (http://www.google.com/ ).
Wyszukiwarki oparte na analizie topologicznej są bardzo odporne na nadużycia. Jedynym znanym atakiem, który rzeczywiście zastosowano wobec nich, jest stworzenie dużej ilości gęsto polinkowanych stron, z czego wszystkie na ten sam temat. Jest to jednak zadanie trudne i wymagające dużego nakładu pracy, a modyfikując heurystykę wartości początkowych można znacznie ograniczyć ten proceder, którego skala na razie jest minimalna.
Reklamy w wyszukiwarkach
Wyszukiwarki stanowią wymarzony cel reklamodawców, ponieważ mają oni praktycznie pełną gwarancję, że osoba wyszukująca dane hasło jest nim zainteresowana. Tak więc większość wyszukiwarek oferuje reklamy zależne od treści zapytań (np. AdWords oferowany przez Google). Nie zawsze są one właściwie oddzielone od wyników poszukiwań, co stało się źródłem protestów grup ochrony praw konsumentów oraz kilku do dziś nierozstrzygniętych spraw sądowych. Ze względu na szeroką krytykę procederu nieoddzielania reklam od wyników, większość wyszukiwarek z niego zrezygnowała i wyraźnie zaznacza teraz reklamy.
Wyszukiwarki oparte na zasadzie aukcji miejsc
Osobnym pomysłem jest wprowadzony przez Overture (http://overture.com/ ) system, gdzie strony płacą wyszukiwarce kilka centów za każde kliknięcie, przy czym miejsca są licytowane - strona która daje więcej za kliknięcie znajdzie się wyżej na liście rezultatów. Pozycje płatne są oznaczone jako takie, razem z ceną. System ten jest korzystny dla właścicieli stron - płacą oni tylko za wejścia nie za wyświetlenia.
Twórcy twierdzą, że jest on również korzystny dla użytkownika, gdyż tylko strony, które oferują coś użytecznego z danej dziedziny mogą sobie pozwolić na taką reklamę. Z drugiej jednak strony wiele użytecznych stron jest niekomercyjnych, a nawet przy stronach komercyjnych wyniki będą często nieoptymalne - np. na taką reklamę nie mogą sobie pozwolić strony, które mają niskie marże i oferują produkty po niskich cenach, a jedynie te, które mają wysokie marże i oferują produkty drożej.
Adresy internetowe wyszukiwarek
To jedynie niektóre z setek wyszukiwarek dostępnych w sieci:
- A9.com - http://a9.com
- AlltheWeb - http://www.alltheweb.com/
- AltaVista - http://www.altavista.com/
- Clusty - http://www.clusty.com/
- DMOZ - http://dmoz.org/
- Excite - http://www.excite.com/
- Euroseek - http://www.euroseek.com/
- Ez2Find - http://www.ez2find.com/
- Google - http://www.google.com/
- Hotbot - http://www.hotbot.com/
- Lycos - http://www.lycos.com/
- MetaCrawler - http://www.metacrawler.com/
- MSN Search - http://www.msnsearch.com
- Overture - http://overture.com/
- Yahoo! - http://www.yahoo.com/
Polskie wyszukiwarki internetowe:
Wyszukiwarki wyspecjalizowane:
Zobacz także: katalogi stron WWW, Robots Exclusion Protocol
Artykuł zawiera udostępnione na licencji GNU FDL treści pochodzące w pierwotnej wersji z artykułu Wyszukiwarka internetowa w polskiej Wikipedii. Lista autorów.

