<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	>
<channel>
	<title>Comentarios en: Mearse en la bañera</title>
	<atom:link href="http://www.k-government.com/2008/08/01/mearse_en_la_baera/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.k-government.com/2008/08/01/mearse_en_la_baera/</link>
	<description>Thinking in e-Government</description>
	<pubDate>Wed, 19 Nov 2008 13:49:08 +0000</pubDate>
	<generator>http://wordpress.org/?v=2.6.3</generator>
		<item>
		<title>Por: Santiago</title>
		<link>http://www.k-government.com/2008/08/01/mearse_en_la_baera/#comment-28441</link>
		<dc:creator>Santiago</dc:creator>
		<pubDate>Sat, 02 Aug 2008 08:37:45 +0000</pubDate>
		<guid isPermaLink="false">http://www.k-government.com/?p=1572#comment-28441</guid>
		<description>Por supuesto que me has sido de ayuda, muchas gracias por la respuesta.</description>
		<content:encoded><![CDATA[<p>Por supuesto que me has sido de ayuda, muchas gracias por la respuesta.</p>
]]></content:encoded>
	</item>
	<item>
		<title>Por: Louis Crandell</title>
		<link>http://www.k-government.com/2008/08/01/mearse_en_la_baera/#comment-28440</link>
		<dc:creator>Louis Crandell</dc:creator>
		<pubDate>Fri, 01 Aug 2008 17:28:12 +0000</pubDate>
		<guid isPermaLink="false">http://www.k-government.com/?p=1572#comment-28440</guid>
		<description>Hola Santiago.

No pensaba hacer un continuará, pero tampoco puedo dejar de responder a tus inquietudes, así que procuraré satisfacer tus dudas.

Existen manera de recuperar información valiosa de las Bases de Datos con información defectuosa, y es posible mediante el uso de diversos algoritmos muy variados. Por ejemplo.

1.- El algoritmo de Knut permite encontrar información en una BBDD cuyos datos contengan errores foneticos, ya que la bússqueda se hace por la "forma en como suenan las palabras" en lugar en la forma en como están escritas. Es un algoritmo muy antiguo (primera mitad del s XX) y se usó por vez primera para hacer un censo en Nueva York. Las principales BBDD incorporan este algorito en forma de una función denominada SOUNDEX. El problema es que pretende una aproximación fonética del lenguaje inglés. No es dificil hacer uno para el castellano.

2.-El algoritmo de Levensthein, el cual permite conocer la distancia entre dos cadenas de caracteres en cuanto a operaciones hay que hacer para paar de una a otra. Por ejemplo, de "perro" a "pero" la distancia es "1" porque es necesario borrar un carácter para pasar del primero al segundo. Con este algoritmo podemos ver el "parecido" entre dos cadenass de caracteres. Es de propósito general, es decir, sirve para cualquier tipo de errores, pero mecanográficos y de ortografía principalmente.

3.-Los algoritmos n-grams (bigrams, trigrams...) también permiten conocer el parecido entre cadenas de caracteres.

4.-El SIMILAREX, es para errores cometidos en procesos de escaneo.

Y hay muchos más, pero mi memoria no está para exigirle mucho.

Como dije, son algoritmos que permiten obtener información buena de la mala, pero también se pueden usar para depurar datos a la entrada de los mismos, tanto si es de forma manual o mediante el volcado automático de archivo.

Puedo assegurarte que son mucho más eficaces de lo que pueda parecer, pero debo advertirte que tienen un gran coste computacional.

Espero haberte servido de ayuda.

Saludos</description>
		<content:encoded><![CDATA[<p>Hola Santiago.</p>
<p>No pensaba hacer un continuará, pero tampoco puedo dejar de responder a tus inquietudes, así que procuraré satisfacer tus dudas.</p>
<p>Existen manera de recuperar información valiosa de las Bases de Datos con información defectuosa, y es posible mediante el uso de diversos algoritmos muy variados. Por ejemplo.</p>
<p>1.- El algoritmo de Knut permite encontrar información en una BBDD cuyos datos contengan errores foneticos, ya que la bússqueda se hace por la &#8220;forma en como suenan las palabras&#8221; en lugar en la forma en como están escritas. Es un algoritmo muy antiguo (primera mitad del s XX) y se usó por vez primera para hacer un censo en Nueva York. Las principales BBDD incorporan este algorito en forma de una función denominada SOUNDEX. El problema es que pretende una aproximación fonética del lenguaje inglés. No es dificil hacer uno para el castellano.</p>
<p>2.-El algoritmo de Levensthein, el cual permite conocer la distancia entre dos cadenas de caracteres en cuanto a operaciones hay que hacer para paar de una a otra. Por ejemplo, de &#8220;perro&#8221; a &#8220;pero&#8221; la distancia es &#8220;1&#8243; porque es necesario borrar un carácter para pasar del primero al segundo. Con este algoritmo podemos ver el &#8220;parecido&#8221; entre dos cadenass de caracteres. Es de propósito general, es decir, sirve para cualquier tipo de errores, pero mecanográficos y de ortografía principalmente.</p>
<p>3.-Los algoritmos n-grams (bigrams, trigrams&#8230;) también permiten conocer el parecido entre cadenas de caracteres.</p>
<p>4.-El SIMILAREX, es para errores cometidos en procesos de escaneo.</p>
<p>Y hay muchos más, pero mi memoria no está para exigirle mucho.</p>
<p>Como dije, son algoritmos que permiten obtener información buena de la mala, pero también se pueden usar para depurar datos a la entrada de los mismos, tanto si es de forma manual o mediante el volcado automático de archivo.</p>
<p>Puedo assegurarte que son mucho más eficaces de lo que pueda parecer, pero debo advertirte que tienen un gran coste computacional.</p>
<p>Espero haberte servido de ayuda.</p>
<p>Saludos</p>
]]></content:encoded>
	</item>
	<item>
		<title>Por: Santiago</title>
		<link>http://www.k-government.com/2008/08/01/mearse_en_la_baera/#comment-28437</link>
		<dc:creator>Santiago</dc:creator>
		<pubDate>Fri, 01 Aug 2008 12:34:06 +0000</pubDate>
		<guid isPermaLink="false">http://www.k-government.com/?p=1572#comment-28437</guid>
		<description>La última frase ha sonado a "Continuará en el próximo capítulo...". Y eso espero, porque es un problema que también me he encontrado en varias ocasiones, y al que no veo solución: pasas meses puliendo procesos, herramientas, formando y motivando a personas... para encontrarte luego con que tu estupendo sistema no maneja más que basura por culpa de la calidad del dato.

¿Cuáles son los mecanismos que se podrían usar? Mecanismos técnicos que yo haya usado son procesos de reconciliación, que avisan de inconsistencias. Pero siempre acabas necesitando una mano humana que revise lo detectado y tome decisiones.

Y cuando se trata, como dices, de datos heredados de otros organismos, nadie está dispuesto a meterles mano: "ah, no, yo no puedo tocar esos datos que no son míos". Como mucho, se pueden corregir errores tipográficos, duplicados, y poner disciplina en la introducción de nuevos datos. Pero eso no limpia el agua de la bañera...

Un saludo</description>
		<content:encoded><![CDATA[<p>La última frase ha sonado a &#8220;Continuará en el próximo capítulo&#8230;&#8221;. Y eso espero, porque es un problema que también me he encontrado en varias ocasiones, y al que no veo solución: pasas meses puliendo procesos, herramientas, formando y motivando a personas&#8230; para encontrarte luego con que tu estupendo sistema no maneja más que basura por culpa de la calidad del dato.</p>
<p>¿Cuáles son los mecanismos que se podrían usar? Mecanismos técnicos que yo haya usado son procesos de reconciliación, que avisan de inconsistencias. Pero siempre acabas necesitando una mano humana que revise lo detectado y tome decisiones.</p>
<p>Y cuando se trata, como dices, de datos heredados de otros organismos, nadie está dispuesto a meterles mano: &#8220;ah, no, yo no puedo tocar esos datos que no son míos&#8221;. Como mucho, se pueden corregir errores tipográficos, duplicados, y poner disciplina en la introducción de nuevos datos. Pero eso no limpia el agua de la bañera&#8230;</p>
<p>Un saludo</p>
]]></content:encoded>
	</item>
</channel>
</rss>
