Translate

martes, 13 de marzo de 2018

Características de Apache Spark


Spark mejora MapReduce con menos costos de procesamiento de datos.

Con capacidades como el almacenamiento de datos en memoria y el procesamiento casi en tiempo real, puede ejecutarse varias veces más rápido que otras tecnologías de big data.

Spark también soporta evaluación perezosa de consulta big-data, lo que ayuda a optimizar los pasos en los flujos de trabajo de procesamiento de datos. Proporciona una API de nivel superior para mejorar la productividad del desarrollador y una arquitectura coherente para soluciones de big-data.

Spark guarda los resultados intermedios en memoria en lugar de escribirlos en el disco, lo que es eficiente, especialmente cuando tenemos que trabajar en el mismo conjunto de datos varias veces. Está diseñado para ser un motor de ejecución que funciona tanto en la memoria como en el disco. Los operadores de Spark realizan operaciones externas cuando los datos no entran en la memoria. Spark se puede usar para procesar conjuntos de datos que exceden la memoria agregada en un cluster.

Spark intentará almacenar tantos datos en la memoria como sea posible y luego guardara en disco. Puede almacenar parte de un conjunto de datos en la memoria y los datos restantes en el disco. Con este almacenamiento de datos en memoria luego en disco, Spark consigue la ventaja de rendimiento.

Otras características incluyen:

  • Soporta más que las funciones map y reduce
  • La Api soporta Scala, Java y Python
  • La consola interactiva soporta Scala y Python.


Spark fue escrito en Scala por lo que corre en la JVM y actualmente soporta para el desarrollo:

  • Scala
  • Java
  • Python
  • R
  • Clojure y los lenguajes soportados por la Jvm


lunes, 12 de marzo de 2018

Replicas en Oracle 10g con streams


La replicación es el proceso de compartir objetos y datos de bases de datos en múltiples bases de datos. Los datos y los objetos de la base de datos se mantienen sincronizados en todas las bases de datos en el entorno de replicación. En un entorno de replicación de Streams, la base de datos donde se origina un cambio se denomina base de datos fuente, y una base de datos donde se comparte un cambio se denomina base de datos de destino.

Podemos replicar DDL y/o DML, para esto necesitamos hacer los siguientes pasos:

1.Capturar un cambio o un conjunto de cambios (logical change records o LCRs) y encolarlo en la cola dentro de la cola de cambios. Un LCR es mensaje con un formato determinado que especifica un cambio. EL LCR encapsula los cambios a realizar.
2.Propagar el LRC a otras colas, es decir a otras base de datos.
3.Aplicar el LRC a la base destino, esto se puede hacer desde la cola o de forma directa tambien.

Por lo tanto los pasos 1 y 3 son obligatorios y el 2 es opcional dado que se puede aplicar el LRC de forma directa.

A la vez tenemos reglas de replicación, una regla indica una acción cuando ocurre un evento y si se cumple una condición. Las reglas son evaluadas por el motor de reglas de oracle. Cada uno de los siguientes pasos son ejecutados por un motor de reglas:

  • Captura de proceso
  • Propagación
  • Aplicar proceso

Se puede tener control del comportamiento de los clientes Streams usando reglas. Un conjunto o set de reglas es una colección de reglas. En un entorno de replicación, un clinte hace una acción si el LCR sateface el conjunto de reglas.

En general, un cambio satisface los conjuntos de reglas para un cliente de Streams si ninguna regla en el conjunto de reglas negativas se evalúa como TRUE para el LCR, y al menos una regla en el conjunto de reglas positivas se evalúa como TRUE para el LCR. Si un cliente de Streams está asociado con un conjunto de reglas positivas y negativas, entonces el conjunto de reglas negativas siempre se ejecutara antes.

Específicamente, podemos controlar el flujo de información en un entorno de replicación de Streams de las siguientes maneras:

  • Especifique los cambios que se deben capturar desde el area de redolog. Si hay un cambio en el area de redolog que aplica el conjunto de reglas este sera capturado.
  • Especifique los LCR una propagación debe propagar.
  • Especifique las LCR se deben aplicar o descarta en una cola destino.


Debemos utilizar el paquete de pl/sql DBMS_STREAMS_ADM para crear reglas de replicación. Podemos crear reglas en los siguientes niveles:

  • Tabla: Contiene reglas para el cambio de una tabla en particular
  • Esquema: Contiene reglas para el cambio de un esquema en particular
  • Global: Se aplica a toda la base de datos.


A la vez, podemos discriminar las reglas en las que aplican DML o DDL pero no las 2 al mismo tiempo.

Streams replication soporta que se repliquen objetos que no tengan la misma estructura. Es decir en la base destino puede cambiar su estructura. Para esto es necesario utilizar una lregla de transformación, la cual lleve al cambio al formato destino.

Hay 2 tipos de reglas de transformación: declarativas o personalizadas. Las reglas declarativas de transformación o Declarative rule-based transformations (en ingles) permiten cambios en un conjunto de tablas o esquemas. Podemos cambiar el esquema o nombre de tabla o agregar una columna o eliminarla, etc.

En cambio las reglas personalizadas o custom, llaman a una función pl/sql que hace la transformación.

Streams también admite subconjuntos de datos de tablas mediante el uso de reglas de subconjuntos. Si una tabla compartida en una base de datos en un entorno de replicación de Streams contiene solo un subconjunto de datos, entonces puede configurar Flujos para administrar los cambios en una tabla, de modo que solo el subconjunto de datos apropiado se comparta con la tabla de subconjuntos. Por ejemplo, una base de datos particular puede mantener datos para los empleados en un departamento particular solamente. En este caso, puede usar reglas de subconjunto para compartir cambios en los datos para los empleados en ese departamento con la tabla de subconjuntos, pero no para los empleados de otros departamentos.

La subconjunto puede realizarse en cualquier punto del flujo de información de flujos. Es decir, un proceso de captura puede usar una regla de subconjunto para capturar un subconjunto de cambios en una tabla particular, una propagación puede usar una regla de subconjunto para propagar un subconjunto de cambios a una tabla particular y un proceso de aplicación puede usar una regla de subconjunto para aplicar solo un subconjunto de cambios a una tabla en particular.

Por ahora esta la idea general, en proximos post seguiremos en más detalle.

Dejo link: https://docs.oracle.com/cd/B19306_01/server.102/b14228/gen_rep.htm

domingo, 11 de marzo de 2018

Linux esta disponible en la Microsoft Store


Ya esta, lo he visto todo... Puedo morir en paz.

Si si, Linux esta disponible en la Microsoft Store. Es decir podemos instalar virtuales de linux desde el Microsoft Store. En realidad no son virtuales, son como virtuales. Internamente usa el sistema WSL (windows subsystem for Linux)

WSL proporciona una interfaz de kernel compatible con Linux desarrollada por Microsoft (que no contiene ningún código de kernel de Linux), que luego puede ejecutar un sistema operativo Linux.

Actualmente podemos instalar :

  • Ubuntu
  • Debian
  • SUSE Linux Enterprise Servers
  • OpenSUSE
  • Kali Linux


Igualmente es mejor instalar Linux y listo!!

jueves, 8 de marzo de 2018

Java EE se transforma en Jakarta EE


Me hago eco de esta noticia (medio tarde)

Dado que oracle quiere soltar Java EE pero no quiere soltar el nombre Java por lo tanto ahora se va a llamar Jakarta EE.

Y varios proyectos han cambiado nombres dado este cambio. Ahora que Java EE es Jakarta EE, Glassfish pasa a ser Eclipse Glassfish, Java Community Process (JCP) pasa a llamarse Eclipse EE.next Working Group (EE.next), y Oracle development management ahora es Eclipse Enterprise for Java (EE4J) y Project Management Committee (PMC).

Y eso es toda la noticia, bien no se como estirar más ...

Dejo link:


miércoles, 7 de marzo de 2018

Oracle Live sql

Dada la llegada de oracle 18 c. Oracle se le ocurrio liberar Oracle Live sql. Que es la mejor forma de aprender a escribir y correr sql.

Con esta aplicación podes aprender a escribir sql y a obtener información de esto. 

Antes teniamos unas bases de ejemplo que traia oracle pero ahora solo nos conectamos a la web y listo, a practicar.


Dejo link: https://livesql.oracle.com/apex/livesql/file/index.html

lunes, 5 de marzo de 2018

Apache Spark y Hadoop


Hadoop tiene alrededor de 10 años y ha demostrado ser una buena solución big data.

MapReduce es una gran solución para cálculos de un solo paso, pero no es eficiente para casos de uso que requieren cálculos y algoritmos de múltiples pasos.

Cada paso en el flujo de trabajo de procesamiento de datos tiene una fase de map y una fase de reduce y para usar esta tecnica tendremos que convertir cada paso en un patrón de MapReduce.

La salida del procesamiento de cada paso es guardado en discos distribuidos y luego esto es tomado como entrada para el siguiente paso. Como se puede ver no es una visión muy eficiente. También Hadoop generalmente se utiliza en cluster que son difíciles de configurar. A la vez Hadoop necesita otras herramientas para la integración como Apache storm para el manejo de streaming y Mahout para machine learning.

Si quisiéramos hacer algo complicado, tendríamos que encadenar una serie de trabajos de MapReduce y ejecutarlos en secuencia. Cada uno de esos trabajos tiene una alta latencia, y ninguno podría comenzar hasta que el trabajo anterior había terminado por completo.

Spark permite a los programadores desarrollar tuberías de datos complejas de varios pasos usando el patrón de gráfico acíclico dirigido (DAG). También es compatible con el uso compartido de datos en memoria en los DAG, por lo que diferentes trabajos pueden funcionar con los mismos datos sin tener que volver a calcular los datos para cada paso.

Spark se ejecuta sobre la infraestructura existente del sistema de archivos distribuidos Hadoop (HDFS) para proporcionar funcionalidad adicional. Proporciona soporte para implementar aplicaciones Spark en un clúster Hadoop v1 existente (con SIMR: Spark Inside MapReduce), Hadoop v2 YARN cluster, o incluso Apache Mesos.

Deberíamos considerar a Spark como una alternativa a Hadoop MapReduce para nuevas aplicaciones si ya estamos usando Hadoop en nuestra organización, en lugar de reemplazar completamente a Hadoop. Spark no pretende reemplazar a Hadoop, sino proporcionar una solución integral y unificada para administrar los diferentes requisitos de big data y casos de uso.

domingo, 4 de marzo de 2018

Que es Apache Spark?



Apache Spark es un framework de procesamiento de datos big data open source. Construido con las premisas de ser rápido y fácil de usar. Este Framework fue desarrollado en el 2009 en la universidad de Berkeley’s AMPLab y desde el 2010 fue liberado bajo la tutela de la organización Apache.

Es la competencia directa de Hadoop pero lejos de querer remplazarlo, se integra muy bien con el ecosistema Hadoop. Pero Apache Spark tiene varias ventajas comparado con otro framework Map-Reduce y big data.

Primero de todo, Apache Spark ofrece una forma coherente para procesar datos de diferentes naturalezas como video, texto, imágenes y de diferentes fuentes como red, online streaming, datos web online, etc.

A la vez, Spark permite correr aplicaciones en el clusters de Hadoop se ejecuten hasta 100 veces más rápido en memoria y 10 veces más rápido en disco.

Spark permite programar las aplicaciones en Python, Java o Scala. A la vez viene con un conjunto integrado de más de 80 operadores de alto nivel. Y podemos usarlo de forma interactiva para consultar datos dentro del shell.

Ademas las operaciones Map y Reduce, soportan consultas por sql, por streaming, maching learning y procesamiento por grafos. Los desarrolladores pueden usar estas capacidades solos o combinarlas para ejecutar en una sola información.

Dejo link: https://spark.apache.org/

Programando en Clojure en visual code



Como dije hace tiempo Clojure esta ganando cada vez más espacio, uno de los problemas que tenemos a la hora de empezar con este lenguaje es la falta de entornos de desarrollo.

A la vez, visual code es una ide liguera y que esta ganando muchos adeptos, más que nada por la facilidad de extensión y la cantidad de plugins que hay en el mercado.

Clojure no podía ser la excepción y hay un plugin para este lenguaje.

Esta extensión trae todo lo que necesitamos de una IDE: Intellisense, subraya cuando hay errores, un REPL interactivo, etc.

Esta muy completo e invito a que lo prueben.

Dejo link: https://marketplace.visualstudio.com/items?itemName=stiansivertsen.visualclojure#overview

miércoles, 28 de febrero de 2018

Un resumen de Scala for the Impatient, parte 38


Extractors con un argumento o ninguno.

Si un unapply método extrae un solo valor este debe retornar un Optional por ejemplo: 


object Number {
def unapply(input: String): Option[Int] =
try {
Some(input.trim.toInt)
} catch {
case ex: NumberFormatException => None
}
}

Con este extractor podemos extraer el numero de un string :

val Number(n) = "1729"

Un extractor puede chequear un valor en este caso debe retornar un booleano:

object IsCompound {
def unapply(input: String) = input.contains(" ")
}


Se puede utilizar un extractor para agregar un test en una expresión pattern matching:


author match {
    case Name(first, IsCompound()) => …
    case Name(first, last) => …

 }

El método unapplySeq

Si utilizamos el extract en una secuencia, estaremos llamando a unapplySeq que retorna Option[Seq[A]] , donde A es el valor extraído:

object Name {
def unapplySeq(input: String): Option[Seq[String]] =
if (input.trim == "") None else Some(input.trim.split("\\s+"))
}


Dado este método ahora podemos utilizar un conjunto de parámetros:

author match {
   case Name(first, last) => …
   case Name(first, middle, last) => …
   case Name(first, “van”, “der”, last) => ...
}

Ojo, no se puede tener un método unapply y un unapplySeq con similar parámetros. 

Invocación dinámica

Scala es un lenguaje de tipado estático y fuertemente tipado.  Es decir que informa los errores de tipo en momento de compilación.

Si un tipo extiende de el trait scala.Dynamic, entonces el método llamadas, getters y setters se reescriben como llamadas a métodos especiales que pueden inspeccionar el nombre de la llamada original y los parámetros, y luego tomar acciones arbitrarias.

Veamos algunos ejemplos. Supongamos que la persona es una instancia de un tipo que se extiende
de Dynamic. Una declaración:

person.lastName = "Doe"

se puede remplazar:

person.updateDynamic ("lastName") ("Doe")

La clase Person debe tener dicho método:

clase Persona {
    ...
    def updateDynamic (campo: String) (newValue: String) {...}
}

Depende de nosotros si implementamos el método updateDynamic.

Otro ejemplo:

val name = person.lastName

puede ser remplazado por:

val name = name.selectDynamic("lastName")

El metodo selectDynamic debe retornar un valor simple. 

En scala existe DynamicProps que extiende a Dynamic y sobre escribe sus métodos:

class DynamicProps(val props: java.util.Properties) extends Dynamic {
    def updateDynamic(name: String)(value: String) {
        props.setProperty(name.replaceAll("_", "."), value)
    }

    def selectDynamic(name: String) =
        props.getProperty(name.replaceAll("_", "."))
    }
}

domingo, 25 de febrero de 2018

Que es machine learning?


Encontre un post de la gente de codecademy que esta muy bueno. Este post trata de explicar ¿qué es el aprendizaje automático, quién debe aprenderlo y cuándo puedo visitar Westworld?

El aprendizaje automático evolucionó a partir del reconocimiento de patrones y la aplicación de algoritmos que pueden aprender de los datos y luego hacer predicciones, y está estrechamente relacionado con las estadísticas computacionales. Esto nos indica el post.

Sin más que aconsejarlos que lo lean dejo el link:
http://news.codecademy.com/what-is-machine-learning/?utm_source=customer.io&utm_medium=email&utm_campaign=fortnightly_2-22-18&utm_content=whatismachinelearning

miércoles, 21 de febrero de 2018

Libros Gratuitos!!!

Quiero compartir un mail que me llego de java code geeks con unos libros gratuitos:

Download Dev Guides!

 
Moving your application to the cloud isn’t as simple as porting over your code and configurations to someone else’s infrastructure – nor should it be. Cloud computing represents a paradigm shift in the world of application architecture from vertical scalability to horizontal scalability. This new paradigm has much to offer organizations that want to build highly scalable and dynamic applications, but it has its dangers, too – if you’re not careful and purposeful in how you prepare for the cloud, your application could suffer. In this white paper, we’ll discuss how to reap the performance benefits of the cloud and avoid the common pitfalls.
 
 
Cloud computing has been gaining momentum for years. As the technology leaves the early adopter phase and becomes mainstream, many organizations find themselves scrambling to overcome the challenges that come with a more distributed infrastructure. One of those difficulties is getting through a major cloud migration. It is one thing to roll out a few applications and cloud pilot projects, it is an entirely different challenge to start using the cloud across multiple lines of business at massive scale. That is the point that organizations are beginning to reach, and the time has come to take a serious look at cloud migration best practices. Read this eBook to meet the cloud world and its importance for businesses moving to the cloud.
 
 
Mockito is an open source testing framework for Java released under the MIT License. The framework allows the creation of test double objects (mock objects) in automated unit tests for the purpose of Test-driven Development (TDD) or Behavior Driven Development (BDD). In software development there is an opportunity of ensuring that objects perform the behaviors that are expected of them. One approach is to create a test automation framework that actually exercises each of those behaviors and verifies that it performs as expected, even after it is changed. Developers have created mock testing frameworks. These effectively fake some external dependencies so that the object being tested has a consistent interaction with its outside dependencies. 
 
 
JUnit is a unit testing framework to write repeatable tests. JUnit has been important in the development of test-driven development, and is one of a family of unit testing frameworks which is collectively known as xUnit that originated with SUnit. A research survey performed in 2013 across 10,000 Java projects hosted on GitHub found that JUnit, (in a tie with slf4j-api), was the most commonly included external library. (Source) In this ebook, we provide a compilation of JUnit tutorials that will help you kick-start your own programming projects. We cover a wide range of topics, from basic usage and configuration, to multithreaded tests and integration with other testing frameworks. With our straightforward tutorials, you will be able to get your own projects up and running in minimum time.
 

martes, 20 de febrero de 2018

Un resumen de Scala for the Impatient, parte 37


Los métodos apply y update

En scala podemos extender la sintaxis de llamada de funciones :

f(n1, n2, n3, …)

Si f es una función o un método, se ejecuta. De lo contrario, se llama al método apply por lo tanto es equivalente a llamar a

f.apply(n1, n2, n3, …)

De la misma manera si se utiliza la notación de función con asignación se llama al método update :

f(n1, n2, n3, …) = value

Es similar a llamar a :

f.update(n1, n2, n3, …, value)

Este mecanismo es utilizado en arrays y maps :

val scores = new scala.collection.mutable.HashMap[String, Int]
scores("Bob") = 100 // es como llamar a scores.update("Bob", 100)
val bobsScore = scores("Bob") // es como llamar a scores.apply("Bob")

El método apply también es usado para retornar instancias de objetos, sin tener que llamar al constructor con el new :

class Fraction(n: Int, d: Int) {

}

object Fraction {
def apply(n: Int, d: Int) = new Fraction(n, d)
}

De esta manera podemos hacer lo siguiente:

val result = Fraction(3, 4) * Fraction(2, 5)

Extractors

Un extractor es un objeto que puede desaplicar un método. Se puede pensar esto como el método contrario a el apply. Por ejemplo si el apply agrega un elemento a una lista el extractor debería quitar este elemento.

Por ejemplo el objeto Fraction tiene un método apply que retorna una Fraction a partir de un numerador y un denominador. El extractor debería retornar un numerador y un denominador a partir de una Fraction.

object Fraction {
def unapply(input: Fraction) =
if (input.den == 0) None else Some((input.num, input.den))
}

Por lo general el método unapply retorna un Option dado que puede haber un error cuando queremos desaplicar un método. En el ejemplo si el denominador es 0 retorna None.

val Fraction(a, b) = f;
val tupleOption = Fraction.unapply(f)
if (tupleOption == None) throw new MatchError
// tupleOption is Some((t1 , t2))

En el ejemplo el método apply y unapply son inversos pero esto no es obligatorio.

Graylog, guarda y consulta tus logs de forma centralizada.


Graylog es un producto que permite consultar y almacenar registros de aplicaciones de forma centralizada y eficiente. Para esto utiliza MongoDB para almacenar los log y Elasticsearch para la búsqueda e indexación.

Con Graylog se puede guardar los registros de forma centralizada, detectar problemas de manera temprana y de esta manera resolverlos más rápidamente.

A la vez Graylog provee un sistema de administración de registros con el cual se puede consultar registros de forma interactiva y rápida y permite almacenar registros de diferentes servidores, dispositivos de red y aplicaciones.

De esta forma este producto permitirá auditar la aplicación de forma económica y eficiente. Permitiendo a los auditores ganar tiempo y centralizarse en su trabajo en vez de envolverlos en problemas técnicos. 

Y algo sumamente importante es que es Open source.

Dejo link: https://www.graylog.org/

lunes, 19 de febrero de 2018

MongoDB 4.0 incluye transacciones de múltiples documentos

MongoDB 4.0 incluye transacciones de múltiples documentos. Eso es todo. Toda la info...

Pero si no sabes:

El soporte para transacciones de documentos múltiples, es una técnica para el aislamiento de instantáneas a menudo asociada con las bases de datos relacionales PostgreSQL y Oracle. Y es la piedra angular ACID

MongoDB 4.0 ofrecerá la capacidad de realizar una lectura consistente. Es decir, devolverá solo los datos como se conocía en el momento en que comenzó la operación de lectura. Las versiones anteriores de MongoDB podían arrojar resultados que no necesariamente eran consistentes con ningún punto en el tiempo. Incluso podría omitir documentos o devolver varias versiones del mismo documento en una sola consulta. Pero esto ahora cambio.

Dejo link:
http://www.zdnet.com/article/mongodb-cto-how-our-new-wiredtiger-storage-engine-will-earn-its-stripes/

jueves, 15 de febrero de 2018

Top de lenguajes que tenes que aprender en el 2018



Me encontre un post sobre los lenguajes que debes aprender este 2018, si no lo sabes. Y en resumen los lenguajes son los siguientes :

  1. JavaScript
  2. TypeScript (si bien no es un lenguaje, es un framework que suma características a un lenguaje, por lo tanto es valido)
  3. Python
  4. Java
  5. Kotlin
  6. C & C++
  7. PHP
  8. Swift
  9. Scala
Lindo ranking veo algunos lenguajes viejos, pero salvo algunos puntos, estoy de acuerdo.