Wyszukiwanie informacji - FIZYKA
Kurs dla studentów



Zanim zaczniesz szukać
Jak pracują
: AltaVista i Infoseek?
Zalecane adresy

Zanim zaczniesz szukać

Internet - to w chwili obecnej kilkaset tysięcy serwerów, rozsianych po całym świecie, na których przechowywane są tysiące gigabajtów danych. Brzmi to niezmiernie optymistycznie, bo te dane to dla nas, użytkowników, często cenne informacje w postaci nie tylko samego tekstu, ale także zdjęć, wykresów, nagrań dźwiękowych czy animacji. Jednak prawdziwą ich wartość możemy ocenić dopiero gdy dotrzemy do serwera na którym są przechowywane i przeczytamy. Trzeba także mieć świadomość, że nie od razu po uruchomieniu przeglądarki zasobów najpopularniejszej obecnie usługi internetowej, czyli sieciowej pajęczyny - world wide web, zwanej w skrócie "www" - trafimy na interesujące nas strony. Bardzo często czekają nas żmudne poszukiwania (wydłużone np. przez złą jakość połączeń), ale zawsze możemy mieć pewność co do pozytywnych rezultatów - odpowiedzi negatywne zdarzaja się bardzo rzadko - wśród stron efektownych i starannie przygotowanych spotkamy także może i mniej atrakcyjne pod względem estetycznym, ale za to naładowane treścią....

Podstawową umiejętnością każdego, kto chciałby w efektywny sposób korzystać dziś z zasobów sieci www musi być opanowanie i używanie w pracy różnych funkcji oferowanych nam przez liczne narzędzia wyszukiwawcze. Szukając trzeba także pamiętać, że do właściwości Internetu należy nie tylko dynamika, ale i zmienność. Codziennie pojawiają się tysiące nowych stron, stare są aktualizowane lub usuwane. Dokumenty do których dotarliśmy np. po południu, nastę pnego dnia rano mogą już nie istnieć lub też mieć inny adres - należy o tym pamiętać przygotowując prezentację.

Wraz z przyrostem informacji w Internecie, zwiększa się także liczba narzędzi, które potrafią wyszukiwać strony poświęcone interesującemu nas zagadnieniu. Jak już wspominałam, znajomość zasad działania chociaż kilku internetowych "szperaczy" czy indeksów zasobów sieci www może być często jedyną drogą dotarcia do informacji rozproszonej w sieci.

W Internecie funkcjonują obecnie setki wyspecjalizowanych serwerów, zajmujących się jedynie katalogowaniem i indeksowaniem zasobów sieciowych.

W chwili obecnej najpopularniejszymi narzędziami przeznaczonymi wyłącznie do wyszukiwania informacji w zasobach sieci www są tzw. wyszukiwarki pełnotekstowe (ang. search engines), do których zaliczyć możemy AltaVistę, Infoseek’a, HotBot czy Excite. Podstawą ich działania są specjalne programy, zwane robotami lub szperaczami, które co noc (lub np. raz w tygodniu) przeglądają tysiące stron internetowych, wyszukując nowe połączenia (linki) i jednocześnie kopiując znalezione strony na swoją maszynę . Zawartość tych stron zostaje w całości zaindeksowana, dzięki czemu można wyszukiwać przez dowolne słowa z tekstu. Wyszukiwarki dopuszczają także możliwość użycia operatów logicznych, a wię kszość z nich wyszukuje z rozróżnieniem małych i dużych liter. W przypadku AltaVisty i Infoseek’a możliwe jest także wyszukiwanie według dat ostatniej modyfikacji dokumentu.

Po wprowadzeniu pytania - każda z wyszukiwarek ma specjalne pole, w które należy wpisać zapytanie - program przeszukuje zasoby swego indeksu w poszukiwaniu linków (odsyłaczy do stron), których zawartość powinna być relewantna do postawionego pytania. W odpowiedzi otrzymamy uporządkowaną listę odsyłaczy do dokumentów, które zdaniem programu (trzeba pamiętać że wszystko odbywa się mechanicznie), powinny spełniać nasze kryterium wyszukiwawcze. Każdy taki odsyłacz zaopatrzony jest zazwyczaj w krótki opis dokumentu. Trudno zwać go opisem bibliograficznym, gdyż tego raczej nie przypomina, jest to bowiem tytuł dokumentu, nagłówek strony, czy też początek tekstu. Poszczególne wyszukiwarki stosują własne systemy porządkowania odpowiedzi, często pod uwagę brana jest częstotliwość wystę powania słowa użytego do wyszukiwania w stosunku do całej puli słów zaindeksowanych w bazie.

Zazwyczaj w odpowiedzi otrzymujemy bardzo długą listę odsyłaczy By uniknąć żmudnego przeglądania niepotrzebnych stron, warto stosować odpowiednie polecenia precyzujące wyszukiwanie.

Jak pracuje AltaVista ?

Ta jedna z lepszych wyszukiwarek sieciowych jest gotowa przystąpić do pracy bezpośrednio po otwarciu jej strony domowej (http://www.altavista.com). Trzeba tylko wpisać przygotowane słowa kluczowe (im więcej, tym lepiej) i potwierdzić je klawiszem "Search" by program rozpoczął wyszukiwanie. Ponieważ wiekszość stron na www jest anglojęzyczna, nasze wyrażenia wyszukiwawcze także powinny być przygotowane w języku angielskim. Jeśli posłużymy się polska terminologią wyszukane zostaną tylko strony po polsku.

Wyszukiwanie proste

Nasze zapytanie bę dzie miało najczę ściej postać zdania. Zdaniem dla sieciowych wyszukiwarek jest każdy ciąg słów lub znaków (nie musi to być zdanie w sensie gramatycznym) oddzielonych spacjami i ograniczony cudzysłowami, np. "solar energy". Jeśli zrezygnujemy z formy zdania i podamy po prostu ciąg słów: solar energy (jest to także dopuszczalna forma pytania) otrzymamy znacznie wię kszy niż w pierwszym przypadku zbiór odpowiedzi. Do dokumentów spełniających kryteria wyszukiwawcze zaliczone zostaną bowiem zarówno te, które zawierają np. tylko słowo: energy, jak i te, w których występuje tylko termin: solar. Zdanie zawiera w domyśle nakaz, by wyszukane zostały tylko te dokumenty, w których po słowie "solar" wystę puje słowo "energy".

AltaVista potrafi rozróżniać małe i duże litery. Jeśli nasze zdanie zapiszemy używając tylko małych liter, to wyszukane zostaną wszystkie dokumenty, w których te słowa kluczowe występują niezależnie od wielkości liter. Gdy zdecydujemy się podać terminy dużymi literami, dostaniemy tylko te dokumenty, w których poszukiwane słowa występują dokładnie w takiej postaci w jakiej je podaliśmy.

Jeśli nie jesteśmy pewni, jak prawidłowo powinien wyglądać zapis słowa kluczowego, możemy zastąpić niektóre litery znakiem: *, np. energia wia*rowa. Gwiazdką możemy także zastąpić różne formy końcówek wyrazu, np. termiczn*, będzie równoznaczne z: termiczna, termicznej, termiczną, itp.

Zbiór odpowiedzi możemy ograniczyć w prosty sposób, np. poprzez podanie słowa które nie powinno się pojawić w opisie odsyłacza, np. "solar energy" -wind (dokumenty dotyczące energii wiatrowej nie zostaną wyszukane). W podobny sposób - wprowadzając znak + - można zaznaczyć słowa, które chcemy by koniecznie wystąpiły wśród wyszukanych dokumentów, np. "solar energy" +wind.

Wyszukiwanie złożone

Jeżeli w rezultacie przeprowadzonego wyszukiwania prostego otrzymaliśmy zbyt wiele odpowiedzi, lub jeśli większość z nich nie zadawala naszych oczekiwań, możemy jeszcze skorzystać z opcji Advanced search (Wyszukiwanie zaawansowane), która służy właśnie do precyzowania i zawężania zbyt ogólnego pytania. Możliwość wykorzystania operatorów boolowskich, czy też np. wyszukania dokumentów powstałych w określonym przedziale czasowym - to niektóre zalety zwiększające "siłę działania" tego serwisu.

Co różni wyszukiwanie proste od złożonego?

Nadal musimy pamiętać, że także i tutaj podstawową jednostką wyszukiwawczą są zdania (dopuszczalne są także ciągi słów, ale wówczas liczba dobrych odpowiedzi może być mniejsza). Zamiast opcji "+" i "-", które nie są teraz aktywne, możemy używać bardziej precyzyjnych w działaniu operatorów boolowskich: and, or, not (i, lub, nie). Informują one skutecznie system o relacjach, jakie powinny zachodzić między poszukiwanymi słowami. (Uwaga: wyrażenia zawierające operatory wprowadzamy w specjalnym polu: Enter boolean expression.).

Np. "solar energy" and "climate change"

(sun or wind) and energy

W drugim przypadku powinny się pojawić dokumenty zawierające wyraz energy i przynajmniej jedno ze słów wpisanych w nawiasie.

Operator miejsca - "near" (blisko)

Ten niezwykle użyteczny operator pozwala na dookreślenie, w jakiej odległości od siebie powinny się znajdować poszukiwane słowa. W wyszukiwaniu prostym dokumenty czę sto tylko na pierwszy rzut oka spełniają warunki wyszukiwania, bo słowa szukane faktycznie wystąpiły w dokumencie, ale nie zawsze w tym samym zdaniu czy nawet paragrafie, zmieniając tym samym sens odpowiedzi. Operator miejsca narzuca odległość - 10 słów - jaka może maksymalnie dzielić poszukiwane wyrazy.

Ograniczanie zakresu chronologicznego

W Internecie spotkać możemy zarówno strony powstałe zaledwie przed kilkoma dniami, jak i takie, które są udostę pniane od kilkunastu miesię cy. Zdarza się, że twórcy nawet najciekawszych stron "zapominają" o konieczności nieustannego czuwania nad ich aktualizacją. AltaVista ma wbudowaną specjalną opcję , pozwalającą na zdefiniowanie okresu czasu, z którego mają pochodzić wyszukane dokumenty. Można np. poprosić o wyszukanie tylko dokumentów powstałych po 15 marca 1999, lub utworzonych w okresie od stycznia do marca 1999.

Refine your search - wyczyść swe rezultaty

Mimo iż zdanie wyszukiwawcze wydaje nam się bardzo precyzyjne, możemy otrzymać bardzo długą listę odsyłaczy. Przeglądanie wszystkich wskazanych przez wyszukiwarkę adresów może być trochę kłopotliwe. Twórcy AltaVisty znaleźli kolejne rozwiązanie, usprawniające pracę . Jest to opcja: "Refine your search", czyli dosłownie "oczyść twoje wyszukiwanie". System po przeanalizowaniu wyników naszego pytania, dobiera i wypisuje w kolumnie słowa, które najczę ściej się powtarzają w wyszukanych dokumentów. My możemy teraz zaznaczyć, które z nich powinno pozostać w naszym zapytaniu, a które może być pominię te (automatycznie dokumenty zawierające terminy niepożądane zostają wyłączone ze zbioru odpowiedzi).

Po zakończonym wyszukiwaniu nie pozostaje nam nic innego, jak przystąpić do przeglądania listy wyników. Najczę ściej system wyświetla po 10 tzw. odsyłaczy do stron internetowych związanych z tematem, który jest przedmiotem naszego zainteresowania. Każdy z odsyłaczy zawiera krótki opis strony, najczę ściej jest to jej tytuł i pierwsze linijki tekstu, datę ostatniej aktualizacji, i oczywiście adres sieciowy. Wystarczy teraz kliknąć już na sam tytuł odsyłacza by zostać przeniesionym na tę stronę .

Jeśli chcemy mieć dokładny obraz tego co w świecie sieci rzeczywiście istnieje, warto powtórzyć poszukiwania posługując się inną przeszukiwarką, np. Infoseek. Bardzo czę sto listy odsyłaczy są rozłączne, różnice wynikają z odmiennych strategii działania wyszukiwarek. Każda z ma swój własny program i koncepcje przeszukiwania sieciowej pajęczyny, np. niektóre roboty pomijają strony komercyjne (gdy adres kończy się na .com) czy instytucji rządowych (domeny .gov), inne dążą do zaindeksowania jak największej liczby stron głównych, nie wchodząc w głąb ich struktury hierarchicznej, jeszcze inna grupa preferuje szczegółowe indeksowanie wszystkich stron jakie znajdują się na danym serwerze. Ten selektywny dobór dokumentów i różnice w metodzie działania powodują powstawanie różnych zbiorów wyjściowych i nie zawsze jednakowych zbiorów odpowiedzi.

Stronę opracowała Dominika Czyżak


Strona główna        Uwagi        Bibliotekarze dziedzinowi        Administrator strony        Aktualizacja : marzec 1999