|
1
: 27 Ago 2010, 09:16:44
|
||
| Iniciado por Rejane Lima - Última Mensagem: por Rejane Lima | ||
|
• Merge Join O Step Merge Join executa um processo comum de associação entre conjuntos de dados provenientes de duas etapas de entrada diferentes. Contendo os seguintes tipos de junção: INNER , LEFT OUTER , RIGHT OUTER e FULL OUTER. Abaixo segue a descrição das opções deste passo: Step name: Nome da etapa, onde este deverá ser único na transformação. First Step: Informe o primeiro passo de entrada, valores à esquerda da junção. Second Step: Informe o segundo passo de entrada, valores à direita da junção. Join Type: Defina o tipo de junção. Ex: INNER Keys for 1st step e Keys for 2nd step: Informe os principais domínios em que os dados de entrada são classificados, clique em Get key fields para recuperar uma lista de campos da etapa nos passos anteriores. • Join Rows (Cartesian product) Permirte juntar etapas fazendo combinações (produto cartesiano) de todas as linhas na entrada do fluxo, e também pode ser usado para criar dimensão de data por exemplo. Abaixo as opções de configuração: Step name: Nome da etapa , onde este deverá ser único na transformação. Temp directory: Informe o nome do diretório onde o sistema armazena arquivos temporários, caso haja ncessidade de combinar um número maior de linhas do que se é permitido no cache. TMP-file prefix: É o prefixo dos arquivos temporários que serão gerados Max. cache size: O número de linhas de cache antes que o sistema lê os dados a partir de arquivos temporários. Main step to read from: Informe o passo a partir da qual ler a maioria dos dados , enquanto os dados de outras etapas são armazenados em cache ou spool para o disco, os dados deste step não é gravado. The Condition(s): Você poderá informar a condição desejada, limitando o número de linha de saída. • Merge Rows (diff) Permite comparar dois fluxos de linhas, sendo bastante útil para comparar dados de duas épocas diferentes. Sendo frequentemente utilizado em situações onde a fonte de dados não contém a data da última atualização. As duas correntes de linhas, um fluxo de referência (Dados Mais Antigos) e um fluxo a comparar ( Dados Mais Recentes), estes são mesclados e somente a última versão da uma linha é passada para os próximos passos, rebendo um flag, podendo ser classificado como: identical – Ambas linhas com valores idênticos; changed- Ambas linhas com um ou mais valores é diferentes; new – A Linha não foi encontrada no fluxo de referencia; deleted - A linha não foi encontrada no fluxo a comparado. Abaixo seguem as opções de configuração: Step name: Nome da etapa , onde este deverá ser único na transformação . Reference rows origin: Informe a origem do passo para a referência de linhas Compare rows origin: Informe a origem do passo para a comparar as linhas. Flag fieldname: Informe o nome do campo flag no fluxo de saída . Keys to match: Infome os campos chaves; clique em Get key fields para inserir todos os campos provenientes das linhas do passo de referência. Values to compare: Informe campos que terão seus valores comparados; clique em Get key field para inserir todos os campos do passo origem. |
||
|
2
Software / Dicas Pentaho / Pentaho Data Integration - Diferença entre Merge Rows (diff) e Insert/Update
: 27 Ago 2010, 08:59:44
|
||
| Iniciado por Rejane Lima - Última Mensagem: por Rejane Lima | ||
|
A diferença entre os steps Merge Rows (diff) e Insert/Update está basicamente em: Merge Rows (diff) – Insere um flag para controle de atualização entre comparações, informando se o registro é : Novo, Idêntico, Excluído ou se foi Alterado. O Insert / Update – Insere e Atualiza, mas não detecta registros excluídos. |
||
|
3
Software / Dicas Pentaho / Parametrización: utilización de variables externas en PDI [versión español]
: 19 Ago 2010, 13:40:50
|
||
| Iniciado por Rejane Lima - Última Mensagem: por Natalia Batalla | ||
|
[versión español]
Abajo será ejemplificado una forma de capturar variables de las transformaciones de modo que puedan ser referenciadas externamente, en unJobs por ejemplo, tornándose bastante útil cuando deseamos comparar nombre de archivos, concatenar valores, etc. Veamos un ejemplo donde tenemos la necesidad de verificar la existencia de un archivo utilizado en algunas transformaciones. El nombre del archivo cambia diariamente pues tiene anexada la fecha, o sea, LISTA_CLIENTES_ DDMMAAAA.CSV. Para esto debemos: Paso 1: Definición de los steps Seleccione los siguientes steps:
Conecte los steps de la siguiente forma: Get System Info --> Formula --> Modified Java Script value --> Set Variables Paso 2: Configuración de los steps Get System Info Usaremos este step para obtener la información de la fecha del sistema. 1. Haga dos clicks en el step; 2. En la columna Name, digite Fecha; 3. Haga un click en Type y seleccione system date (variable); 4. Haga un click en OK. Formula Usaremos este step para extraer el dia y mes de la variable capturada en el paso anterior. 1. En la columna New field, informe en la primera celula DIA y en la segunda MES; 2. Haga un click en formula para extraer el dia usando el siguiente comando: DAY([FECHA]), para la variable MES repita el procedimiento con el siguiente código: MONTH([FECHA]); 3. Haga un click en OK. Modified Java Script value Usaremos este step para concatenar la palabra LISTA_CLIENTES_ con las variables DIA y MES generadas anteriormente. 1. En la ventana de configuración informe el comando var NOMBRE_ARCHIVO = “LISTA_CLIENTES_” + DIA + MES; 2. Haga un click en Get Variables; 3. Haga un click en OK. Set Variable Usaremos este step para crear las variables y definir los valores de salida. 1. En Field Name informe NOMBRE_ARCHIVO, creado en la etapa anterior. Defina el nombre de la variable y el tipo, en este caso: Valid in the root job; 2. Haga un click en OK. Grabe la transformación, pues será usada en el job definido a seguir. Paso 3: Job Crear un Job, conectando los steps: Start --> Transformation --> Checks if files exist Transformation: configuración 1. En Filename apunte el camino donde está el archivo .ktr creado anteriormente; 2. Haga un click en OK. Checks if files exist: configuración 1. En Filename digite el camino donde se encuentra el archivo .CSV de la siguiente forma: C:/Pentaho/Samples/Files/${NOMBRE_ARCHIVO}.CSV Spoon interpretará, si estamos en el dia 17 de agosto, como: C:/Pentaho/Samples/Files/LISTA_CLIENTES_ 1708.CSV |
||
|
4
: 19 Ago 2010, 13:08:58
|
||
| Iniciado por Rejane Lima - Última Mensagem: por Natalia Batalla | ||
|
[versión español]
Normalmente la definicieon del path para hacer referencia a una carpeta o arquivo es hecha de forma manual. En PDI existe una opción bastante útil para crear una variable que tenga la definición del path. Un atajo simple es editar el archivo de configuración llamado kettle.properties. Este archivo está localizado, normalmente, en C:\Profiles\(User)\.kettle para Windows Vista o en *~/.kettle en otras plataformas. Al abrir el archivo, informaremos el camino deseado, siguiendo el ejemplo abajo: PATH_ATUAL=C:/Pentaho/Samples/Files Para finalizar, grabar y cerrar el archivo. Un detalle importante es que el Spoon lee este archivo cuando es iniciado, o sea, será necesario reiniciar para que sean visualizadas las alteraciones. Después de iniciar el Spoon, podremos ver los cambios. Por ejemplo, seleccione el step CSV Input, informe ${PATH_ATUAL} en el campo Filename. Otra opción es ejecutar el comando Ctrl-Alt-Space, para aparecer la lista de variables, y seleccionar PATH_ATUAL. |
||
|
5
: 19 Ago 2010, 12:55:29
|
||
| Iniciado por Rejane Lima - Última Mensagem: por Natalia Batalla | ||
|
[versión español]
El PDI dispone un recurso muy similar al decode o case, para cuando, por ejemplo, se desea obtener el resultado de una columna con base en una condición. Vea el siguiente ejemplo. Supongamos que tenemos en la transformación una columna Nota referente a las notas de los alumnos y deseamos crear una otra columna basada en este campo, o sea, clasificando el status siguiendo la regla: Si Nota >= 6 --> “Aprobado”, si no “Reprobado” Para esto debemos:
El resultado de este ejemplo será: Nota Status 6 Aprobado 7 Aprobado 3 Reprobado 4 Reprobado |
||
|
6
Software / Dicas Pentaho / Parametrização: utilização de variáveis externas no PDI [con versión español]
: 18 Ago 2010, 10:29:13
|
||
| Iniciado por Rejane Lima - Última Mensagem: por Rejane Lima | ||
|
Abaixo será exemplificado uma forma de capturar variavéis das transformações de modo que possam ser referenciadas externamente, em Jobs por exemplo, se tornando bastante util quando desejamos comparar nomes de arquivos, concatenar valores, etc.
Vejamos um exemplo onde temos a necessidade de verificar a existência de um arquivo utilizado em alguma transformação. O nome do arquivo muda diariamente pois tem anexada a data corrente, ou seja: LISTA_CLIENTES_ DDMMAAAA.CSV. Para isso devemos: Passo 1: Definição dos steps Selecione os seguintes steps:
Conecte os steps da seguinte forma: Get System Info --> Formula --> Modified Java Script value --> Set Variables Passo 2: Configuração dos steps Get System Info Usaremos este step para obter a informação da data do sistema. 1. Clique duas vezes no step; 2. Na coluna Name, digite Data; 3. Clique em Type e selecione system date (variable); 4. Clique em OK. Formula Usaremos este step para extrair o dia e mês da variável capturada no passo anterior. 1. Na coluna New field, informe na primeira celula DIA na segunda MES; 2. Clique em formula para extrair o dia usando o seguinte comando: DAY([Data]), para a variável MES repita o procedimento com o seguinte código: MONTH([Data]); 3. Clique em OK. Modified Java Script value Usaremos este step para concatenar a palavra LISTA_CLIENTES_ com as variáveis DIA e MES geradas anteriormente. 1. Na janela de configuração informe o seguinte comando: var NOME_ARQUIVO = “LISTA_CLIENTES_” + DIA + MES; 2. Clique em Get Variables; 3. Clique em OK. Set Variable Usaremos este step para criar as variáveis e definir os valores de saída. 1. Em Field Name informe NOME_ARQUIVO, criado na etapa anterior. Defina o nome da variavel e o tipo de escopo, no caso: Valid in the root job; 2. Clique OK. Salve a transformação, pois ela será referencia no job que será criado a seguir. Passo 3: Job Criar um Job, conectando os steps da seguinte forma: Start --> Transformation --> Checks if files exist Transformation: configuração 1. Em Filename aponte o caminho onde se encontra o arquivo .krt criado anteriormente; 2. Clique em OK. Checks if files exist: configuração 1. Em Filename digite o caminho onde se encontra o arquivo .CSV da seguinte maneira: C:/Pentaho/Samples/Files/${ NOME_ARQUIVO}.CSV O Spoon interpretará se estivermos no dia 17 do mês de agosto, como: C:/Pentaho/Samples/Files/LISTA_CLIENTES_ 1708.CSV E assim por diante.. |
||
|
7
: 18 Ago 2010, 10:13:07
|
||
| Iniciado por Rejane Lima - Última Mensagem: por Rejane Lima | ||
|
Normalmente a definição do path para referenciar uma pasta ou arquivo é feita de forma manual. Mas no PDI existe uma opção bastante útil para criar uma variável para a definição do path.
Um atalho simples é editar o arquivo de configuração chamado kettle.properties. Este arquivo está localizado, normalmente, em C:\Profiles\(User)\.kettle no Windows Vista ou em *~/.kettle em outras plataformas. Ao abrir o arquivo, informaremos caminho desejado, seguindo o exemplo abaixo: PATH_ATUAL=C:/Pentaho/Samples/Files Para finalizar, salvar e fechar o arquivo. Um detalhe importante é que o Spoon lê este arquivo logo que é iniciado, ou seja, é necessário que seja reiniciado para que visualize as alterações realizadas. Após a inicialização do Spoon, você poderá visualizar sua variável criada. Por exemplo, selecione o step CSV Input, informe ${PATH_ATUAL} no campo Filename. Outra opção é, executar o comando Ctrl-Alt-Space, para aparecer a lista de variáveis, e selecionar PATH_ATUAL. |
||
|
8
: 16 Ago 2010, 21:37:32
|
||
| Iniciado por Rejane Lima - Última Mensagem: por Rejane Lima | ||
|
O PDI disponibiliza um recurso muito similiar ao decode ou case, para quando, por exemplo, se deseja obter resultado de uma coluna com base em uma condição. Veja abaixo um exemplo.
Suponhamos que temos na tranformação uma coluna Nota referente à notas de alunos, e desejamos criar uma outra coluna baseada nesse campo, ou seja , classificando seu status, seguindo a regra: Se Nota >= 6 --> “Aprovado”, senão “Reprovado” Para isto devemos:
O resultado deste exemplo será: Nota Status 6 Aprovado 7 Aprovado 3 Reprovado 4 Reprovado |
||
|
9
: 16 Ago 2010, 17:23:51
|
||
| Iniciado por Natalia Batalla - Última Mensagem: por Natalia Batalla | ||
|
[versión español]
Casi todos los usuarios SAS Enterprise Guide ya pasaron por la situación de intentar abrir un proyecto y aparecer el mensaje: "Unable to open file xxxx as a valid project file". Existe uma opción rápida que permite recuperar los códigos SAS de los procesos existentes. Para esto, es necesario renombrar el proyecto de .egp para .zip. Luego descompactar el archivo. Al abrir el .zip aparecerán varias carpetas con nombre extraños y dentro de algunas de estas carpetas estarán los códigos SAS usados en el proyecto corrompido. |
||
|
10
: 16 Ago 2010, 17:20:35
|
||
| Iniciado por Natalia Batalla - Última Mensagem: por Natalia Batalla | ||
|
Quase todos os usuários do SAS Enterprise Guide já passaram pela situação de tentar abrir um projeto e aparecer a mensagem "Unable to open file xxxx as a valid project file".
Existe uma opção rápida que permite recuperar os códigos SAS dos processos existentes. Para isso, é necessário renomear o projeto de .egp para .zip. Logo, descompactar o arquivo. Ao abrir o .zip aparecerão várias pastas com nomes estranhos e dentro de algumas de estas pastas estarão os código SAS usados no projeto corrompido. |
||