Magazyn T3
newsy, felietony, testy i tutoriale




Newsy

08/04/2008

Magia Google – czyli jak zmienić Google w wyszukiwarkę plików

Tagi:

Mało kto wie, że umiejętne zastosowanie opcji przesiewu wyników może przemienić Google w bardzo wydajne narzędzie do poszukiwania plików. Przedstawię kilka prostych sposobów na znajdowanie muzyki, filmów czy elektronicznych książek przy użyciu odpowiednich fraz wpisywanych w Google.

Zanim wybierzemy się na poszukiwania, musimy nauczyć się jak „wytłumaczyć” wyszukiwarce, czego dokładnie chcemy. A żeby tego dokonać, trzeba poznać specyficzny język, którym posługuje się Google – język operatorów i dyrektyw (specjalnych elementów składni). Nie zwlekajmy więc i do dzieła.

Operatory

Domyślnie Google nie dostrzega powiązań między słowami, zatem jeśli chcemy, by wyniki wyszukiwania objęły tylko strony, na których dana fraza znajduje się w całości i dokładnie w takiej samej postaci, w jakiej ją wpisujemy, musimy zastosować cudzysłów. Oto dowód. Po wpisaniu frazy (bez cudzysłowu):

you were always in my mind

otrzymujemy 105 milionów wyników. Dzieje się tak dlatego, że Google wyszukuje wszystkie strony, które zawierają zarówno każde z wpisanych słów z osobna, jak i wszelkie ich możliwe kombinacje. Natomiast po wpisaniu:

"you were always in my mind"

wyników jest tylko ok. 10 tysięcy.

Znak minus wyklucza dane słowo z wyników wyszukiwania. Na przykład wpisując:

tenis -stołowy

damy wyszukiwarce instrukcję, by odszukała wszystkie strony zawierające słowo „tenis”, ale nie zawierające słowa „stołowy”.

Znak plus spełnia zadanie odwrotne:

tenis +stołowy

nakazuje szukanie stron, na których oprócz słowa „tenis” musi się znajdować słowo „stołowy”.

Gwiazdka (*) to znak zastępujący dowolne słowo w tekście. Jeśli nie jesteśmy pewni dokładnej treści zapytania, możemy tam wstawić właśnie gwiazdkę.

Operator OR (zamiast którego można stosować znak |), czyli logiczne „lub”, zwraca wszystkie strony, na których pojawiło się chociaż jedno z szukanych słów. Na przykład gdy wpiszemy:

adidas OR nike

wyszukiwarka zwróci wyniki dotyczące jednej lub drugiej firmy.

Specjalne elementy składni

Jako wyszukiwarka pełnotekstowa, Google indeksuje całe strony WWW, a nie tylko ich tytuły i opisy. Dodatkowe polecenia, zwane specjalnymi elementami składni lub dyrektywami, pozwalają na przeszukiwanie określonych elementów stron WWW, np. tytułów stron lub odnośników, które się na nich znajdują. Najważniejsze dyrektywy:

intitle:

Ogranicza wyszukiwanie do tytułów stron WWW. Przykład:

intitle:magazyn internet

Zostaną wyszukane strony, które mają w tytule (czyli w kodzie HTML, między znacznikami {html}{/html}) słowo „magazyn” i/lub „internet”. Jeśli chcielibyśmy, aby w tytule znalezionych stron były obydwa te słowa i w takiej a nie innej kolejności, powinniśmy zawrzeć je w cudzysłowie:

intitle:"magazyn internet"

intext:

Powoduje przeszukiwanie wyłącznie treści dokumentów (ignoruje teksty znajdujące się w tytułach, odnośnikach itp.). Przykład:

intext:"magazyn internet"

inanchor:

Powoduje poszukiwanie określonego tekstu w opisach odsyłaczy stron. Przykład:

inanchor:"magazyn internet"

site:

Pozwala ograniczyć obszar wyszukiwania do konkretnej witryny lub domeny. Przykład:

site:bydgoszcz.pl

Zostaną wyszukane tylko strony/dokumenty znajdujące się w domenie .bydgoszcz.pl.

inurl:

Ogranicza wyszukiwanie do adresów URL
stron WWW. Przykład:

inurl:pingpong

link:

Zwraca listę stron, które zawierają odnośniki
do określonego adresu URL. Przykład:

link:magazynyinternetowe.pl

filetype:

Pozwala na wyszukiwanie plików (i w plikach)
określonego rodzaju, np. PDF, DOC, XLS, PPT,
RTF i innych. Przykład:

"magazyn internet" filetype:pdf

Zostaną odnalezione tylko dokumenty PDF,
które zawierają ciąg „magazyn internet”.

Przeszukiwanie RapidShare

Gdy roboty Google coś przeoczą, pomocne mogą być systemy przechowywania plików, na przykład serwis RapidShare (http://rapidshare.com). Idea wyszukiwania plików polega w tym przypadku na odnajdywaniu stron użytkowników zawierających interesujące nas dane.

Strony użytkowników charakteryzują się następującymi cechami:

  • w adresie znajduje się katalog users, np. {stala}rapidshare.com/users/nazwa-użytkownika{/stala},
  • w treści strony znajduje się fraza „Sort files by”,
  • wszystkie strony użytkowników znajdują się w domenie rapidshare.com.

Znając te zasady możemy już poprawnie ułożyć zapytanie dla Google:

"ciekawyplik" inurl:users site:rapidshare.com

Fraza „ciekawy plik” będzie poszukiwana na wszystkich stronach w domenie rapidshare.com, które zawierają w swym adresie słowo „users”.

Nie musimy ograniczać się w naszych poszukiwaniach wyłącznie do RapidShare. Na przykład
aby przeszukać zasoby systemu MegaUpload (http://megaupload.com), musimy po prostu zamienić {stala}site:rapidshare.com{/stala} na {stala}site:megaupload.com{/stala}. Nie stosujemy też fragmentu adresu URL users, więc nasze zapytanie będzie wyglądało następująco:

"ciekawy plik" site:megaupload.com

Znajdziemy w ten sposób wszystkie podstrony serwisu MegaUpload, które zawierają frazę „ciekawy plik”.

Zasady formułowania pytań w Google

  • Konstruując zapytanie najistotniejsze słowa kluczowe należy umieszczać na początku
  • Szukana fraza może mieć tylko 10 słów, wszystkie pozostałe są ignorowane
  • Wszelkie zaimki, przyimki oraz niektóre skróty są ignorowane
  • Wyszukiwarka nie zwraca uwagi naznaki interpunkcyjne (z wyjątkiem fraz wpisywanych w cudzysłowach)
  • Wielkość liter jest bez znaczenia
  • W przypadku zapytania z dużą liczbą wyników z całego świata, warto zawęzić przeszukiwania do określonego obszaru językowego

Wyszukiwarki plików oparte o Google

Na podstawie opisanych w artykule sposobów poszukiwania plików w Google powstały strony
ułatwiające ten proces. Dzięki nim nie musimy
znać skomplikowanej składni zapytań, a jedynie
wpisujemy szukaną frazę i wybieramy rodzaj pliku, który nas interesuje. Istnieją dwie polskie
„wyszukiwarki” tego gatunku:

Google P2P

http://reod.ovh.org/google.php
Wyszukuje pliki muzyczne, książki, torrenty i pliki z serwera RapidShare.

G2P.pl

http://g2p.pl
G2P.PL, czyli Google to peer, umożliwia wyszukiwanie archiwów (RAR, ZIP), aplikacji (EXE), torrentów, obrazów płyt (ISO, BIN…), plików MP3,
wideo i innych.

Łączenie dyrektyw

Łączenie dyrektyw było dawniej niemożliwe. Stanowiło to poważny problem w tworzeniu zapytań. Na szczęście od jakiegoś czasu ograniczenia te zniknęły. Nadal istnieją pewne dyrektywy, których nie można splatać z innymi, jednak za pomocą pozostałych z powodzeniem można tworzyć zapytania zaawansowane.

Załóżmy, że chcemy odszukać pliki pomocy z dziedziny fizyki. Możemy tego dokonać wpisując takie zapytanie:

intitle:physics inurl:help

lub takie, jeśli wolimy znaleźć poradniki polskie:

intitle:fizyka inurl:pomoc

Wśród polskich wyników otrzymamy tylko kilkadziesiąt odnośników.

Wyruszamy na poszukiwanie plików

Pora na wykorzystanie w praktyce zdobytej wiedzy. Poszukamy w internecie piosenek, filmów,
książek, czasopism, programów, skryptów, szablonów stron WWW.

W jaki sposób kilka operatorów i dyrektyw umożliwia nam tak wiele? Wbrew pozorom to
całkiem proste, ponieważ poszukiwanie za pomocą Google polega przede wszystkim na odrzucaniu zbędnych wyników.

W naszych zapytaniach główną rolę będzie odgrywał znak minus. Za każdym razem będziemy postępować według podobnego schematu:
najpierw odrzucimy wszystkie pliki stron internetowych (*.htm, *.html, *.php, *.asp), potem określi my rodzaje plików, których szukamy (*.mp3, *.avi, *.pdf, *.exe), a na koniec skupimy się na wynikach zawierających pewne kluczowe frazy (np. „index of” charakterystyczne dla tzw.
otwartych katalogów wyświetlanych przez serwer Apache).

MUZYKA

"[NAZWA ZESPOŁU] [TYTUŁ PIOSENKI]" "parent directory" "last modified" intitle:"index of" +intext:(mp3|wma|wav|midi|ogg) -inurl:html -inurl:htm -inurl:php -inurl:asp -inurl:aspx -inurl:php3 -file type:doc -file type:pdf

Tam, gdzie są nawiasy kwadratowe, wpisujemy to, co chcemy znaleźć, przy czym może to być tylko jeden element, a więc np. tylko nazwa zespołu czy też imię i nazwisko wykonawcy lub tylko tytuł piosenki/utworu.

Teraz zaczynamy filtrowanie treści. Po pierwsze wymagamy od wyników, by zawierały w sobie następujące treści: {stala}parent directory{/stala} i {stala}last modified{/stala}. Są to frazy występujące w katalogach plików (zastępczo możemy stosować słowa: {stala}size{/stala} i {stala}description{/stala}, które również pojawiają się w tzw.
otwartych katalogach).

Po drugie ustalamy, jaka fraza ma znajdować się w tytułach wyników. W naszym przypadku
będzie to index of, gdyż katalogi plików oparte o serwer Apache zawsze zawierają ten ciąg danych w swoim tytule.

Po trzecie chcemy, by wyszukiwarka zaprezentowała nam wyłącznie te katalogi, w treści których można znaleźć rozszerzenia oznaczające pliki muzyczne: .mp3, .wma, .wav, .mi di lub .ogg
(są też inne rodzaje plików dźwiękowych, np. AU, AIFF, AAC, MOD, XM i wiele innych – to,
których rozszerzeń użyjemy, zależy wyłącznie od naszych potrzeb).

Po czwarte informujemy przeglądarkę, że nie interesują nas strony HTML, PHP i ASP czy dokumenty DOC i PDF.

Teraz szukamy! Rys. 1 przedstawia uzyskane wyniki dla słowa „soul” (ang. dusza), zaś dla sprawdzenia czy rzeczywiście znaleźliśmy pliki MP3 (i inne muzyczne) klikamy jeden ze zwróconych wyników i… eureka! W znalezionym katalogu rzeczywiście są dwa pliki MP3 ze słowem „soul” w nazwie.

FILMY

"[TYTUŁ FILMU] [TYTUŁ TELEDYSKU]" "parent directory" "last modified" intitle:"index of" +intext:(mpg|mpeg|avi|mov|wmv) -inurl:html -inurl:htm -inurl:php -inurl:asp -inurl:aspx -inurl:php3 -file type:doc -file type:pdf

Proces wyszukiwania filmów jest podobny do wyszukiwania muzyki. Jedyna różnica to oczywiście zawartość dyrektywy intext, w której wpisujemy tym razem formaty plików wide o, np.
MPG, MPEG, AVI, MOV, WMV.

KSIĄŻKI

"[TYTUŁ KSIĄŻKI] [TYTUŁ CZASOPISMA][TYTUŁ GAZETY]" "parent directory" "last modified" intitle:"index of" +intext:(pdf|doc) -inurl:html -inurl:htm -inurl:php -inurl:asp -inurl:aspx -inurl:php3

Jeśli interesują nas książki, przy dyrektywie intext: musimy wpisać różne rodzaje dokumentów tekstowych, np. PDF, DOC, ODT, RTF. Oczywiście teraz nie będziemy już używać opcji {stala}-file type:doc ani -file type:pdf{/stala}, jak to czyniliśmy poszukując plików dźwiękowych i filmów.

SERWERY FTP

Gdy chcemy przejrzeć zasoby internetu, nie wiedząc dokładnie jakiego rodzaju plików poszukujemy, możemy udać się w podróż po serwerach FTP. Posłuży do tego następujące zapytanie:

+inurl:ftp intitle:"index of" -inurl:html -inurl:htm -inurl:php -inurl:asp -inurl:aspx

Podobnego zapytania użyjemy także poszukując wersji instalacyjnych programów, gier, uaktualnień itp. Wystarczy, że sprecyzujemy typ danych:

+inurl:ftp intitle:"index of" -inurl:html -inurl:htm -inurl:php -inurl:asp -inurl:aspx +(zip|rar)

Do wcześniejszego zapytania dodaliśmy tylko dyrektywę: +(zip|rar), wymagającą od wyszukiwarki, by w treści katalogu znalazło się słowo „zip” lub „rar” (często programy nie są spakowane, warto więc do powyższej dyrektywy dodać jeszcze „exe”).

GOOGLE DLA WEBMASTERÓW

Google to także katalog plików przydatnych twórcom stron internetowych. Wystarczy odpowiednio sformułować zapytanie, by natrafić na zbiory szablonów stron, skryptów, poradników czy krojów pisma:

"web templates" "parent directory" "last modified" intitle:"index of" -inurl:html -inurl:htm -inurl:php -inurl:asp -inurl:aspx -inurl:php3

Po wyższe zapytanie sprawi, że Google otworzy nam dostęp do katalogów zawierających szablony stron WWW. Oto bliźnia czy zapis służący do wyszukiwania czcionek:

"fonts" "parent directory" "last modified" in title:"index of" -inurl:html -inurl:htm -inurl:php -inurl:asp -inurl:aspx -inurl:php3

Jeśli interesuje nas zawartość wyłącznie polskich serwerów, dodajmy:

site:pl






  • http://cudowny-blonnik.pl Patrycja

    Przydało się, dzieki ;)
    + added to bookmarks.

  • Łukasz

    W dyrektywie intitle, użyłeś opisu „(czyli w kodzie HTML, między znacznikami {html}{/html})”. Wydaje mi się, że powinno być między znacznikami {title}{/title}.