Índice
Introducción
Tipos de
datos>
Control de
fluxo
Entrada/saída
Expresións
regulares
Bibliografía
Descarga
|
|
Expresións regulares
As expresións regulares son secuencias de caracteres cunha
sintaxe determinada que describen esquemas fixos de cadeas textuais. En Perl
poden ser utilizadas para buscar patróns e levar a cabo
determinadas accións unha vez atopados. Resultan unha parte fundamental
para calquera lingüista que queira procesar grandes corpus de textos,
ben sexa con linguaxes de programación (como Perl, Awk, etc), ben
simplemente coas ferramentas que facilita o sistema operativo UNIX (grep,
sed, etc).
Estructura das expresións regulares
Dentro dunha expresión regular hai tres tipos de elementos:
Marcas de situación.
Especifican a situación da cadea nunha liña de
texto (principio/final). |
^xyz |
Cando é o primeiro carácter, sinala comezo de
liña da cadea (xyz). |
xyz$ |
Se é o último carácter, sinala fin de
liña da cadea precedente (xyz). |
\b |
Sinala límite de palabra. |
Caracteres simples.
Emparellan un ou máis caracteres da cadea. |
xyz |
Localiza "xyz" no texto.
|
Modificadores.
Especifican o número de veces que se repite
o carácter ou conxunto de caracteres precedente. |
z* |
Localiza o carácter "z" repetido cero
ou máis veces. |
z+ |
Localiza o carácter "z" repetido unha
ou máis veces.
|
|
Se se quere localizar nun texto algún carácter con
significado especial dentro das expresións regulares, este
debe ir precedido sempre dunha barra invertida (ex. \*).
Táboa de caracteres especiais
Expresión |
Significado |
. |
Calquera carácter agás nova liña |
x* |
Cero ou máis aparicións do carácter x |
x+ |
Unha ou máis aparicións do carácter x |
x? |
Unha ou ningunha aparición do carácter x |
(vxz) |
Agrupación da cadea vxz; calquera
modificador abranguerá toda a cadea e non só ó
último carácter |
[vxz] |
O carácter v, x, ou z |
[^vxz] |
Calquera carácter agás v, x, ou z |
(xz)|(vz) |
Ou xz, ou vz; tamén con caracteres simples (x|z) |
x{n} |
O carácter x repetido n número de veces |
x{n,} |
O carácter x repetido n ou más número de veces |
x{,n} | O carácter x repetido entre cero e n
número de veces como máximo |
x{n,m} | O carácter x repetido entre n e m número de veces |
vxz$ | A cadea vxz en posición final de liña |
^vxz |
A cadea vxz en posición inicial de liña |
\d |
Calquera díxito |
\w |
Calquera carácter de palabra (letras,
números e liñas de subraiado) |
\s |
Calquera carácter de espacio en branco (espacio, tabulado,
nova liña, retorno de carro ou salto de páxina) |
|