WebCrawling Utilizando PHP
-
Upload
rodrigo-sales -
Category
Technology
-
view
3.023 -
download
0
Transcript of WebCrawling Utilizando PHP
Apresentação
E
u
Rodrigo de Sales da Silva
• Bacharel em Ciência da Computação
• MBA em Tecnologia da Informação
• webdev@mestreseo
• sysadmin@mestreseo
• webcrawling
• data mining
• reconhecimento de padrões
• data mining
Motivação
• Como monitorar seu concorrente?
• Atualizações em agregadores de notícias?
• Pretende automatizar procedimentos?
• Verificar posições em mecanismos de
busca?
Protocolo HTTP
http://www.w3.org/Protocols/rfc2616/rfc2616.html
The Hypertext Transfer Protocol (HTTP) is
an application-level protocol for distributed,
collaborative, hypermedia information
systems. HTTP has been in use by the
World-Wide Web global information initiative
since 1990.
Client URL Library - cURL
• http
• https
• ftp
• gopher
• telnet
• dict
• file
• ldap
Todas as funções foram adicionadas no PHP 4.0.2
Expressões Regulares
• São formas concisas e flexíveis de identificar cadeias de caracteres. (wikipedia.org)
• preg_match()
• preg_match_all()
• preg_split ()
• preg_grep()
• preg_replace()
• preg_quote()
• preg_filter ()
• .....
regexp
• Metacaracteres: a-z, 0-9
• Coringa Ponto: ma.
• Lista: [012], [a-z]
• Lista Negada: [^0-9]
• Opcional: ?
• Zero ou mais: *
• Um ou mais: +
• Quantidades: {n, m}
• Inicio de Linha: ^
• Final de Linha: $
• Escape: \
regexp
• Algoritmos Gulosos x Algoritmos Preguiçosos
• Grupos: boa-(tarde|noite)
• Grupos nomeados: (?P<name>)
• Back reference: \1, \2
Mais informações: guia-er.sourceforge.net
pcntl
• posix_getpid();
• posix_getppid();
• posix_get_last_error();
php.net/manual/en/ref.posix.php
• Praticamente toda informação quenecessitamos está disponível na web.
• Capturar, entender e armazenar, depende só de você.
• As ferramentas estão aí para serem utilizadas.
• Perguntas???
Concluindo