Mostrando las entradas con la etiqueta NoSql. Mostrar todas las entradas

martes, 27 de enero de 2026

Teorema de Brewer (CAP)

El Teorema de Brewer fue propuesto por Eric Brewer en el año 2000 y demostrado formalmente por Seth Gilbert y Nancy Lynch en 2002.

Establece que en un sistema distribuido no es posible garantizar simultáneamente las tres propiedades siguientes:

C — Consistency (Consistencia)
A — Availability (Disponibilidad)
P — Partition Tolerance (Tolerancia a particiones)

📘 En otras palabras:

Un sistema distribuido solo puede cumplir dos de las tres propiedades al mismo tiempo.

🔹 Las tres propiedades explicadas

1. Consistency (Consistencia)

Todos los nodos del sistema ven los mismos datos al mismo tiempo.
Después de una escritura exitosa, cualquier lectura posterior devuelve el valor más reciente.

📘 Ejemplo:
Si un usuario actualiza su saldo bancario en un nodo, otro usuario que consulta desde otro nodo ve inmediatamente el saldo actualizado.

💡 Equivale a la consistencia de una base de datos relacional tradicional.

2. Availability (Disponibilidad)

El sistema responde a todas las solicitudes, incluso si hay fallos en algunos nodos.
Cada petición recibe una respuesta válida —aunque los datos no siempre sean los más recientes.

📘 Ejemplo:
Un servidor cae, pero otros nodos siguen respondiendo a las consultas, aunque con datos levemente desactualizados.

💡 Se prioriza que el sistema siga funcionando sobre la precisión inmediata de los datos.

3. Partition Tolerance (Tolerancia a Particiones)

El sistema sigue funcionando a pesar de fallos en la comunicación entre nodos.
Una “partición” ocurre cuando los nodos se dividen en grupos que no pueden comunicarse entre sí.

📘 Ejemplo:
Si un centro de datos se desconecta de otro, ambos grupos de nodos continúan procesando solicitudes de sus usuarios locales.

💡 En sistemas distribuidos reales, las particiones son inevitables, por lo tanto P siempre debe cumplirse.

🔹 Las combinaciones posibles (el triángulo CAP)

Dado que P es ineludible en sistemas distribuidos, los diseñadores deben elegir entre priorizar Consistencia (C) o Disponibilidad (A) durante una partición.

Tipo de sistema	Propiedades	Descripción	Ejemplo
CP (Consistent + Partition Tolerant)	Garantiza consistencia, pero puede sacrificar disponibilidad.	Prefiere bloquear operaciones antes que devolver datos desactualizados.	HBase, MongoDB (modo strong), Google Spanner
AP (Available + Partition Tolerant)	Garantiza disponibilidad, aunque puede devolver datos antiguos.	Permite leer/escribir aunque haya inconsistencias temporales.	Cassandra, DynamoDB, CouchDB
CA (Consistent + Available)	Teóricamente consistente y disponible, pero no tolera particiones (solo en sistemas centralizados).	Solo posible en bases locales o de un solo nodo.	PostgreSQL, MySQL en una sola máquina

🔹 Ejemplo práctico

Imaginemos un sistema de ventas distribuido entre dos centros de datos:

Un cliente compra un producto en nodo A.
En ese momento, la red se corta (partición).
Otro cliente consulta el stock en nodo B.

Decisión del sistema:

Si prioriza Consistencia (CP) → bloquea la consulta hasta restablecer la conexión (no hay riesgo de datos incorrectos, pero hay demoras).
Si prioriza Disponibilidad (AP) → responde con el stock viejo (el sistema sigue activo, pero los datos pueden ser inconsistentes).

🔹 Implicancias del teorema CAP

No hay una solución única “mejor”: depende del tipo de aplicación.
En la práctica, se buscan equilibrios dinámicos (por ejemplo, consistencia eventual).
Los sistemas modernos (como los basados en microservicios y nube) tienden hacia AP con mecanismos de sincronización posterior.

🔸 Ejemplo de elección según el caso

Tipo de sistema	Requiere	Ejemplo de prioridad CAP
Banca / Finanzas	Precisión absoluta	CP
Redes sociales / mensajería	Disponibilidad continua	AP
ERP / e-commerce con stock centralizado	Balance intermedio	CP o Eventual Consistency
Análisis de logs / métricas	Rendimiento sobre consistencia	AP

🔹 Consistencia eventual (Eventual Consistency)

Es un modelo intermedio que adoptan muchas bases de datos NoSQL distribuidas:

Los datos pueden estar temporalmente inconsistentes, pero eventualmente todos los nodos convergen al mismo estado.

📘 Ejemplo:
En DynamoDB o Cassandra, una actualización puede tardar unos segundos en propagarse, pero luego todos los nodos mostrarán el mismo valor.

🔹 CAP en bases de datos reales

Base de Datos	Tipo	Propiedades según CAP
PostgreSQL / MySQL (1 nodo)	Relacional	CA
MongoDB (replicación con write concern)	NoSQL	CP configurable
Cassandra	NoSQL	AP
Amazon DynamoDB	NoSQL	AP (eventual o strong configurable)
Google Spanner	SQL distribuido	CP (usa relojes atómicos para consistencia global)
Redis Cluster	In-memory	AP

🔹 Conclusión

El Teorema de Brewer (CAP) demuestra que no existe un sistema distribuido perfecto:

siempre hay que elegir entre consistencia y disponibilidad en presencia de particiones.

Los ingenieros deben decidir qué propiedad es más crítica según las necesidades del negocio:

CP: si la precisión de los datos es esencial.
AP: si la disponibilidad es más importante.
CA: solo en entornos centralizados o sin distribución.

Propiedad	Significado	Cuando se prioriza
C – Consistency	Todos los nodos ven el mismo dato al mismo tiempo	Finanzas, stock crítico
A – Availability	Siempre responde, aunque los datos no sean los últimos	Redes sociales, mensajería
P – Partition Tolerance	Tolera fallas de comunicación	Necesario en sistemas distribuidos
Combinaciones posibles	CP, AP, CA (teórica)	Elección según contexto

viernes, 13 de diciembre de 2019

EE4J no se detiene y ha aprobado el proyecto Jakarta NoSQL es una especificación en Jakarta EE para ayudar a los desarrolladores a crear aplicaciones de nivel empresarial utilizando tecnologías Java y NoSQL. JNoSQL es la implementación de referencia de Jakarta NoSQL, que proporciona un conjunto de APIs y una implementación estándar para una serie de bases de datos NoSQL, como Cassandra, MongoDB, Neo4J, CouchDB y OrientDB, entre otras.

Jakarta NoSQL consiste en una capa de comunicación (Diana), que extrae un conjunto de APIs diseñadas para definir la comunicación con las bases de datos NoSQL. Contiene cuatro módulos de acuerdo con cada tipo de base de datos NoSQL: clave-valor, familia de columnas, documento y grafo; y una capa de mapeo (Artemis), que proporciona una serie de APIs para ayudar a los desarrolladores a integrar aplicaciones Java con bases de datos NoSQL. La capa de mapeo se basa en anotaciones y utiliza tecnologías como CDI y Bean Validation, lo que facilita el uso de los desarrolladores. Es posible comparar la capa de mapeo con JPA / Hibernate en el mundo tradicional RDBMS.

La definición de una entidad es relativamente similar a JPA. Básicamente usa @Entity, @Id, @Column y así sucesivamente:

@Entity
public class Person {

@Id
private long id;

@Column
private String name;

@Column
private List phones;
}

Los repositorios se parecen a los repositorios de Spring Data, donde se extiende un Repositorio <T, ID>:

public interface PersonRepository extends Repository {

List<Person> findByName(String name);

Stream<Person> findByPhones(String phone);
}

Sin embargo, a partir de este momento, las cosas cambian, ya que las dependencias de Maven cambian de acuerdo con el tipo de base de datos NoSQL que se usa, así como la configuración y cómo inyectamos el repositorio en nuestros servicios.

Veamos 2 ejemplos, uno utilizando una base orientada a columna y otra documental. Importamos librerías :

<dependency>
<groupId>org.jnosql.artemis</groupId>
<artifactId>artemis-column</artifactId>
<version>0.0.9</version>
</dependency>
<dependency>
<groupId>org.jnosql.diana</groupId>
<artifactId>cassandra-driver</artifactId>
<version>0.0.9</version>
</dependency>

Veamos el manager de nuestra base orientada a columna :

@ApplicationScoped
public class ColumnFamilyManagerProducer {

private static final String KEY_SPACE = "developers";
private ColumnConfiguration<> cassandraConfiguration;
private ColumnFamilyManagerFactory managerFactory;

@PostConstruct
public void init() {
cassandraConfiguration = new CassandraConfiguration();
managerFactory = cassandraConfiguration.get();
}

@Produces
public ColumnFamilyManager getManagerCassandra() {
return managerFactory.get(KEY_SPACE);
}
}

Y finalmente, un ejemplo de cómo ejecutar algunas inserciones / consultas:

Person person = Person.builder()
.withPhones(Arrays.asList("234", "432"))
.withName("Name")
.withId(id)
.build();

//using ColumnTemplate
ColumnTemplate columnTemplate = container.select(CassandraTemplate.class).get();
Person saved = columnTemplate.insert(PERSON);
System.out.println("Person saved" + saved);

ColumnQuery query = select().from("Person").where(eq(Column.of("id", 1L))).build();

Optional<Person> person = columnTemplate.singleResult(query);
System.out.println("Entity found: " + person);

//using PersonRepository
PersonRepository repository = container.select(PersonRepository.class).select(ofColumn()).get();
Person saved = repository.save(PERSON);
System.out.println("Person saved" + saved);

Optional<Person> person = repository.findById(1L);
System.out.println("Entity found: " + person);

Veamos un ejemplo con una base documental, primero las dependencias:

<dependency>
<groupId>org.jnosql.artemis</groupId>
<artifactId>artemis-document</artifactId>
<version>0.0.9</version>
</dependency>
<dependency>
<groupId>org.jnosql.diana</groupId>
<artifactId>mongodb-driver</artifactId>
<version>0.0.9</version>
</dependency>

Luego el manager :

@ApplicationScoped
public class DocumentCollectionManagerProducer {

private static final String COLLECTION = "developers";
private DocumentConfiguration configuration;
private DocumentCollectionManagerFactory managerFactory;

@PostConstruct
public void init() {
configuration = new MongoDBDocumentConfiguration();
Map<String, Object> settings = Collections.singletonMap("mongodb-server-host-1", "localhost:27017");
managerFactory = configuration.get(Settings.of(settings));
}

@Produces
public DocumentCollectionManager getManager() {
return managerFactory.get(COLLECTION);
}
}

y usamos el manager :

Person person = Person.builder()
.withPhones(Arrays.asList("234", "432"))
.withName("Name")
.withId(id)
.build();

//using DocumentTemplate
DocumentTemplate documentTemplate = container.select(DocumentTemplate.class).get();
Person saved = documentTemplate.insert(person);
System.out.println("Person saved" + saved);

DocumentQuery query = select().from("Person")
.where(eq(Document.of("_id", id))).build();

Optional<Person> personOptional = documentTemplate.singleResult(query);
System.out.println("Entity found: " + personOptional);

//using PersonRepository
PersonRepository repository = container.select(PersonRepository.class)
.select(ofDocument()).get();
repository.save(person);

List<Person> people = repository.findByName("Name");
System.out.println("Entity found: " + people);
repository.findByPhones("234").forEach(System.out::println);

Y listo!

Ustedes pensaran que feo tener diferentes modos de guardar y recuperar datos de nuestros almacenes de datos sql pero tengamos en cuenta que es el único camino para aprovechar al máximo sus particularidades y normalmente elegimos estas bases por sus particularidades.

Dejo link: https://github.com/eclipse-ee4j/nosql

domingo, 12 de mayo de 2019

Anti-Entropia, Reparación y Arboles de Merkle en Cassandra

Cassandra utiliza un protocolo anti-entropico, que es un tipo de protocolo gossip para reparación de replicas de datos. Los protocolos anti-entropicos funcionan por medio de comparación de las diferentes replicas de datos y conciliando las diferencias entre las replicas. Los protocolos anti-entropicos son usados por muchas bases de datos noSql como Amazon’s Dynamo.

La sincronización de réplicas se admite a través de dos modos diferentes conocidos como reparación de lectura y reparación anti-entropía. La reparación de lectura se refiere a la sincronización de las réplicas a medida que se leen los datos. Cassandra lee los datos de varias réplicas para alcanzar el nivel de consistencia solicitado y detecta si alguna réplica tiene valores desactualizados. Si un número insuficiente de nodos tiene el último valor, se realiza una reparación de lectura inmediatamente para actualizar las réplicas desactualizadas. De lo contrario, las reparaciones se pueden realizar en segundo plano después de las devoluciones de lectura. Esta funcionalidad no es solo de Cassandra, también es utilizada en bases noSql clave/valor como Voldemort y Riak.

La reparación anti-entropica (a veces llamada reparación manual) es una operación iniciada manualmente en nodos como parte de un proceso de mantenimiento regular. Este tipo de reparación se ejecuta mediante una herramienta llamada nodetool. La ejecución de la reparación de nodetool hace que Cassandra ejecute una compactación principal. Durante una compactación principal, el servidor inicia una conversación TreeRequest / TreeReponse para intercambiar árboles Merkle con nodos vecinos. El árbol Merkle es un hash que representa los datos en esa tabla. Si los árboles de los diferentes nodos no coinciden, deben ser reconciliados (o "reparados") para determinar los valores de datos más recientes en los que se deben configurar. Esta validación de comparación de árbol es responsabilidad de la clase org.apache.cassandra.service.AbstractReadExecutor.

Los arboles de Merkle son utilizados por Cassandra y Dynamo para conciliar los datos de diferentes nodos, su nombre se debe a su inventor Ralph Merkle y se lo conoce tambien como “hash tree.” En cassandra esto se implementa con la clase org.apache.cassandra.utils.MerkleTree.

Tanto Cassandra y Dynamo utilizan arboles hash como un protocolo anti-entropico pero su implementación es un tanto diferente. En Cassandra cada tabla tiene su propio arbol, y esto es construido como un snapshot o fotografía en el momento de una compactación principal y se mantiene solo el tiempo necesario para enviarlo a los nodos vecinos en el anillo. La ventaja de esta implementación es que reduce la entrada/salida de la red.

domingo, 24 de febrero de 2019

Relacional vs. HBase Schemas

No hay una asignación uno a uno de las bases de datos relacionales a HBase. En el diseño relacional, el enfoque y el esfuerzo están alrededor de describir la entidad y su interacción con otras entidades.

Pero con HBase, tiene un diseño de esquema de "consulta primero"; todas las posibles consultas deben identificarse primero, y el modelo de esquema debe diseñarse en consecuencia. Debes diseñar tu esquema HBase para aprovechar las fortalezas de HBase. Piense en sus patrones de acceso y diseñe su esquema para que los datos que se leen juntos se almacenen juntos. Recuerde que HBase está diseñado para agrupación. Por lo tanto tenemos que tener en cuenta estos 3 puntos a la hora de diseñar una estema hbase:

Los datos distribuidos se almacenan y se accede juntos.
Se centra en las consultas, así que concéntrese en cómo se leen los datos
Diseño para las consultas.

En una base de datos relacional, la normalización de el esquema tiene como beneficios:

No tiene que actualizar varias copias cuando se produce una actualización, lo que hace que las escrituras sean más rápidas.
Reduce el tamaño de almacenamiento al tener una sola copia en lugar de varias copias.
Sin embargo, esto provoca uniones o joins. Como los datos deben recuperarse de más tablas, las consultas pueden tardar más tiempo.

En un almacén de datos des-normalizado, almacena en una tabla lo que serían múltiples índices en un mundo relacional. La des-normalización puede considerarse como un reemplazo para las uniones. A menudo, con HBase, des-normaliza o duplica datos para que los datos se accedan y almacenen juntos.

Este es un ejemplo de desnormalización en HBase, si sus tablas existen en una relación de uno a varios, es posible modelarlo en HBase como una sola fila. Esto hace que las lecturas sean mucho más rápidas que unir tablas.

La clave de fila corresponde al ID de entidad principal, el Id. para HBase puede ser una familia de columnas para los datos. Este tipo de diseño de esquema es apropiado cuando la única forma de acceder a las entidades secundarias es a través de la entidad principal.

domingo, 2 de diciembre de 2018

Bases de datos orientadas a filas vs orientadas a columnas

Notemos que bases de datos como HBase o Cassandra nos proponen un modelo basado en columnas mientras que nosotros venimos de un modelo basado en Filas. Por esa razón esta bueno confrontar estos modelos.

Filas	Columnas
Es eficiente para agregar o modificar datos	Es eficiente para leer datos
Leen páginas que contienen filas enteras.	Sólo leen las columnas que es necesitan
Son las mejores para OLTP	No están tan optimizadas para OLTP todavía
Los datos de la fila se almacenan en páginas contiguas en la memoria o en el disco	Las columnas se almacenan en páginas en memoria o en disco.

Supongamos que los registros de una tabla se almacenan en las páginas o registros de la memoria. Cuando es necesario acceder a ellas, estas páginas se llevan a la memoria primaria, si aún no están presentes en la memoria.
Si una fila ocupa una página y necesitamos todas las columnas específicas, como el salario o la tasa de interés de todas las filas para algún tipo de análisis, cada página que contenga las columnas debe ingresarse en la memoria; por lo que esta página en la página de salida dará como resultado una gran cantidad de entradas y salidas, lo que puede resultar en un tiempo de procesamiento prolongado.
En las bases de datos orientadas a columnas, cada columna se almacenará en páginas. Si necesitamos recuperar una columna específica, habrá menos entradas y salidas, ya que solo las páginas que contienen la columna especificada deben incluirse en la memoria principal y leer, y no es necesario que aparezcan y lean todas las páginas que contienen filas / registros. De ahora en adelante en la memoria. Por lo tanto, el tipo de consultas en las que solo necesitamos obtener columnas específicas y no registros o conjuntos completos se realiza mejor en una base de datos orientada a columnas, lo que es útil para el análisis en el que podemos recuperar algunas columnas y realizar algunas operaciones matemáticas, como la suma y media.

martes, 14 de agosto de 2018

¿Cuál es la diferencia entre SQL, NoSQL y NewSQL?

Me llego este mail de la gente de VoltDB, sobre un paper que trata sobre las diferencias entre SQL, NoSQL y NewSQL. Y como es costumbre quiero compartirlo con ustedes :

Hi Emanuel,

Database technologies have come a long way since the 1980's. First there was SQL. Then along came NoSQL. And over the last decade, we’ve seen the emergence of NewSQL.

Each database offers their own unique benefits, but are you aware of their drawbacks?

In this white paper, we compare the differences between SQL vs. NoSQL vs. NewSQL databases and explore topics, including:

The basics of NoSQL
The promise of NewSQL
4 use cases where NoSQL databases fall short
And more

VoltDB 209 Burlington Rd. #203 MA Bedford

You received this email because you are subscribed to emails from VoltDB Update your email preferences to choose the types of emails you receive. Unsubscribe from all future emails

miércoles, 18 de julio de 2018

Oracle vs NoSql vs NewSql

Me llego este mail y lo quiero compartir con ustedes:

Oracle vs. NoSQL vs. NewSQL: Comparing Database Technology

The cornerstone of any IT system is the database technology being used. And in today’s world of 24x7, real-time connectivity, it’s critical to leverage a technology that meets all of your demands, without sacrificing other areas like performance, availability, scalability or consistency.

In this eBook, author John Ryan dives into the pros and cons of various database technologies and explores some key considerations to think about when choosing a database for your real-time requirements. Gain insights into topics, including

5 modern demands of a translytical database
ACID vs eventual consistency
The OLTP database reimagined
4 applications that need NewSQL technology
And more

Download EBook

VoltDB | 209 Burlington Road, Suite 203, Bedford, MA 01730 | T: 978.528.4660

© 2018 VoltDB, Inc.

jueves, 4 de enero de 2018

10 ebook populares del 2017

Me llego este mail y como la mayoría de los libros son gratuitos, lo quiero compartir:

Download the Top 10 eBooks!

10) Getting Started with Git

Find out what sets Git apart from the more traditional, centralized version controls systems and how it can work for you. Since its inception in 2005, Git continues to grow as the de facto standard for version control in both local and distributed environments. With its beginnings rooted in the open source community, and Linus Torvald’s original authorship, Git’s many features encompass social-driven collaboration that exceeds that of other version control systems.

9) An Introduction to AWS Security

AWS is an incredibly rich ecosystem of services and tools, some of which have security aspects baked in (like S3 SSE), and others that provide overarching security capabilities (like IAM and VPC) that apply to many services. With regard to data storage, operating system, and applications, security functions largely the same in the cloud or on-premises software. Customers can and should continue to follow best practices that have served them well in their own data centers.

8) Contemporary Cryptography

These slides are intended for computer scientist, electrical engineers, and mathematicians both in research and practice. Cryptography is an enabling technology (or tool) to secure the information infrastructures we build, use, and count on in daily life. Computer scientists, electrical engineers, and applied mathematicians should care about (and be educated in) the principles and applications of cryptography. Download these slides from Prof. Dr. Rolf Oppliger to help continue your Cryptography research.

7) Evolving Along with the Internet of Things

The Internet of Things (IoT) is more than a network of smart toasters, refrigerators, and thermostats. They represent just the tip of a very large and mostly invisible iceberg, and the data the IoT generates makes an integrated data strategy more vital than ever. Using that data to produce actionable insights will require fast, accurate, reliable, and scalable infrastructure and processes. This O'Reilly white paper from Teradata looks at why the Internet of Things integrated data strategy more vital than ever.

6) Learn Linux in 5 Days

If you want to learn how to use Linux and level up your career but are pressed for time, read on. In this eBook, you will learn the most important concepts and commands, and be guided step-by-step through several practical and real-world examples. As new concepts, commands, or jargon are encountered they are explained in plain language, making it easy to understand. The most important material is condensed into five sections, each designed to be consumed in a day.

5) Amazon Web Services: An Overview

There's a great chance that AWS has more than a few products to help you work faster, smarter, and more cost effectively. So, where should you start? Getting a clear understanding of what Amazon Web Services (AWS) is and how it can help your business can be a daunting task. The depth and breadth of AWS is significant, comprising more than 48 services in dozens of data centers located at 11 Regions throughout the globe. They offer computing, storage, networking, deployment, management, and a host of supporting services like queues and email.

4) Dive Into Python (Free 328p. eBook)

Python from novice to pro: Whether you're an experienced programmer looking to get into Python or grizzled Python veteran who remembers the days when you had to import the string module, Dive Into Python is your 'desert island' Python book.

3) The Beginners Guide to NoSQL

Take advantage of noSQL by learning the basics and more with this FREE eBook. We are storing more data now than we ever have before and connections between our data are growing all the time. We don't make things knowing the structure from day one. Server architecture is now at a stage where we can take advantage of it.

2) Jump Start GIT ($30 Value, FREE)

Take control of your code and assets with this descriptive FREE eBook. This book includes: An outline of the philosophy of version control, Exploring Git through the basics and command line, Using Git in a team environment, The "branching" option of Git, Specific tools for efficiency, Examining GUI tools, Using Git for purposes other than code versioning.

1) Learning Python

Learn to code like a professional with Python - an open source, versatile, and powerful programming language. Learning Python has a dynamic and varied nature. It reads easily and lays a good foundation for those who are interested in digging deeper. Starting with the fundamentals of programming and Python, it ends by exploring very different topics, like GUIs, web apps and data science. The book takes you all the way to creating a fully fledged application.

Emanuel Goette, alias Crespo

Translate