Julio 5, 2008

Convertir DOCX (MS Office 2007) a Texto

Categoría: MS Office — Edwood @ 3:14 pm

Estoy recibiendo con mucha frecuencia documentos en el formato docx de MS Office 2007, un formato que aún OpenOffice no acepta sin ayuda de extensiones.

Un día recibí un docx cuyo contenido tenía que publicarse urgentemente. Fue entonces que decidí hacer algo al respecto:


    $ unzip carta-graduacion-d.docx
    $ cd word/
    $ cat document.xml | sed -e 's/<\/w\:p>/\n/g’ | sed -e ’s/<[^>]*>//g’ | iconv -f utf8 -t iso88591

La última línea del código sólo extrae el texto y trata de conservar la estructura de los párrafos. Una breve explicación de lo que hace el código:

  1. El unzip es porque los documentos docx son archivos zip (también los de OpenOffice)
  2. El primer sed cambia </w:p> por “\n”, caracteres que indican el final de un párrafo.
  3. El segundo sed remueve todos las etiquetas (”tags”) XML.
  4. El programita iconv cambia el encoding de utf8 a iso-8859-1 para que los acentos sean interpretados correctamente.

Si lo escribiéramos como un “script” bash para la consola de linux, nombrémoslo docx2txt.sh, luciría algo así:


    #!/bin/sh
    # docx2txt.sh
    docx=$1
    unzip $docx
    cd word/
    cat document.xml | sed -e 's/<\/w\:p>/\n/g’ | sed -e ’s/<[^>]*>//g’ | iconv -f utf8 -t iso88591

Se debe declarar como un archivo ejecutable de esta forma:


    $ chmod +x docx2txt.sh

Luego se podría usar de esta forma:


    $ ./docx2txt.sh carta-graduacion-d.docx > carta-graduacion-d.txt

El contenido textual de carta-graduacion-d.docx ahora estaría en el archivo carta-graduacion-d.txt. Sin imágenes, sin decoraciones, sin tablas, sin formatos especiales. Sólo texto simple y legible.

Por lo menos ya sé qué hacer con esos anejos docx.

Más artículos como este en:

Algunos artículos relacionados:


Julio 24, 2006

OpenOffice explica hallazgos de estudio de seguridad

Categoría: OpenOffice, MS Office — Edwood @ 10:02 pm

Uno de los desarrolladores de OpenOffice resume y aclara los hallazgos del estudio de seguridad:

Parece que los defectos de seguridad son reales, pero se pueden resolver en poco tiempo.

Más artículos como este en:

Algunos artículos relacionados:


Julio 22, 2006

OpenOffice más inseguro que MS Office

Categoría: OpenOffice, MS Office — Edwood @ 8:20 pm

les pagamos porVia Lxer.

Un estudio realizado por EICAR (European Institute for Computer Anti-Virus Research) determinó que OpenOffice es más vulnerable a virus macros que MS Office:

Over the last year, LtC Filiol and his team at the Virology and Cryptology Laboratory a Ecole Supérieure et d’Application des Transmissions (VCL-ESAT) built several self-replicating logic bombs and trojan horses. Then they unleashed them against both products. OpenOffice lost.

El artículo completo resumiendo el estudio es Long Knives Are Out as the French Fry OpenOffice with Microsoft Office.

El artículo original, en francés es Le ministère de la Défense met OpenOffice à l’index.
Algo como esto no me alarma en lo absoluto. Creo en el veredicto sobre OpenOffice, que es más inseguro que MS Office. Pero consideremos que todo el experimento se llevó a cabo de forma provocada, permitiendo a los macros ejecutar. Los que vivimos los virus de MS Office, como Melissa, aprendimos a nunca ejecutar macros dentro de documentos, a menos que conozcamos su orígen o los hayamos escrito. Si no lo hago con MS Office, no lo haré con OpenOffice. Cualquier software que sea “scriptable”, permitiendo crear programas que manejan sus componentes y los del sistema, es un peligro.

Concuerdo en que la razón para la conclusión de este estudio es que OpenOffice es un producto relativamente jóven. Sin embargo, hubiera esperado que los programadores principales de OpenOffice, conociendo la historia de MS Office, fueran más exigentes con los aspectos de seguridad del desarrollo de OpenOffice. Pero gracias a que es un proyecto de código abierto, no dudo que esas vulnerabilidades desaparecerán muy pronto.

Afortunadamente, esta noticia tiene solamente valor académico porque no hemos tenido una crisis de seguridad con OpenOffice como a las que estamos acostumbrados con MS Office que cuestan millones de dólares reparar, eso a pesar de que ellos sí tienen el dinero para mejorar su producto y se les paga por dejarnos instalarlo.

Más artículos como este en:

Algunos artículos relacionados:


Junio 15, 2006

Adobe habla sobre su desacuerdo con Microsoft

Categoría: MS Office — Edwood @ 2:51 pm

Via CIO.

En el artículo Adobe Speaks Out on Microsoft PDF Battle se cita a un ejecutivo de Adobe explicar las razones para denegarle a Microsoft la inclusión de un filtro para exportar a PDF los archivos del nuevo Microsoft Office:

Adobe then explains that Microsoft in the past has demonstrated a practice of using its monopoly power to undermine cross-platform technologies and constrain innovation that threatens its monopolies.

“Microsoft’s approach has been to “embrace and extend” standards that do not come from Microsoft,” Adobe warns.

Nada nuevo realmente. Lo que que en otra entrada especulaba sobre este asunto resulta ser cierto.

Más artículos como este en:

Algunos artículos relacionados:


Junio 6, 2006

Sobre MS Office y PDF

Categoría: MS Office — Edwood @ 6:36 am

Adobe tiene que estar preocupado por algo más que la capacidad de exportar a PDF que MS quiere incorporar en MS Office. Sabemos que eso es algo que OpenOffice, Abiword y varios “plug-ins” ya hacen desde hace una década.

Exportar no puede ser el problema. Adobe se huele algo. Microsoft no acostumbra a ser generoso si no puede ser poderoso. Es decir, sólo da algo gratis si le permite extender su monopolio.

Lamentablemente, Adobe tendrá que meterse el rabo entre las patas a menos que pruebe que esto es una estrategia de Microsoft para nuevamente acaparar un mercado. No creo que tenga éxito.

Me desconcierta el que Microsoft dócilmente decidiera remover el conversor PDF y ofrecerlo como una aditamento que se instala por separado. Microsoft no es una compañía fácil de someter. Ni siquiera los gobiernos de Estados Unidos y la Unión Europea lo han podido hacer con facilidad. Esa decisión parece más la respuesta a una orden de cese y desista.

Voy a especular. Creo que Adobe teme que Microsoft tome el formato PDF, lo altere, incorpore extras sólo compatibles con MS Office y que el nuevo “MS-PDF” haga de Word el nuevo Acrobat Pro. Eso no será difícil ya que el “MS-PDF” cabalgaría sobre el monopolio de Microsoft. Se repetiría la misma historia del formato HTML: existiendo un estándar, Microsoft hizo unas extensiones que sólo funcionaban en Internet Explorer, pero como tenían acceso al 95% de las computadoras del mundo, sus extensiones no estandarizadas se conviertieron en el estándar de facto, no por concenso de la industria, sino por virtud del monopolio del que Microsoft disfruta.

Si ese es el caso, Adobe hace bien en oponerse. Si van a corte no creo que ganen, pero parece que Microsoft no irá a corte.

Más artículos como este en:

Algunos artículos relacionados:


Febrero 8, 2006

Reloj con fórmulas de MS Excel

Categoría: Humor geek, MS Office — Edwood @ 3:49 am

Buscando para mis estudiantes la lista de funciones matemáticas en MS Excel (se me perdió la que tenía), encontré este reloj a la venta:

Reloj Excel

Cada expresión que sustituye un número en el reloj es una función de Excel. El lugar Web que lo promociona es Mr. Excel. El reloj lo pueden encontrar en Mr.Excel Store.

En realidad es un reloj común de pared con un fondo de cartón impreso al gusto.

Más artículos como este en:

Algunos artículos relacionados:


Octubre 2, 2005

PDF en MS Office 12

Categoría: OpenOffice, MS Office — Edwood @ 10:41 pm

Nuevamente Microsoft intenta una movida tardía: parece que incluirá la capacidad para exportar a PDF en todos los productos de Office 12. Brian Jones, gerente del proyecto Office, escribe sobre la gran noticia en su blog.

Para los usuarios de MS Office es una buena noticia y ya era hora. Para los que ya llevamos tiempo usando OpenOffice la noticia no nos impresiona, pues eso ya lo hemos tenido por un par de años.

La imitación es es el mejor halago, especialmente viniendo de Microsoft. Pero, si leen los comentarios de algunos de los lectores del blog, tal parecería que Brian Jones estuviera anunciando algo novedoso. De hecho, no menciona a OpenOffice en su escrito, aunque sí aparece mencionado en un par de comentarios, incluyendo el mío; no pude resistir la tentación.

Más artículos como este en:

Algunos artículos relacionados:


Junio 24, 2005

Comparación entre OpenOffice Writer y MS Word

Categoría: OpenOffice, MS Office — Edwood @ 8:45 am

Este artículo en Neswforge compara en varias categorías al procesador de texto Writer (OpenOffice) con Microsoft Word: OpenOffice.org Writer vs. Microsoft Word

La comparación me parece honesta. Añadiré mi granito de arena basándome en mis experiencias con OpenOffice versiones 1.0 a la 1.1.4 (recientemente van por la 2.0 beta):

  • He escrito exámenes y guías de software totalmente dentro de Writer y lo más que extraño son los nodos para manejar la ubicación y tamaño de la tabla que vinieron con MS Word 2000. Aparte de eso, la creación y el manejo de tablas contiene todo lo que Word ofrece.
  • Un área en la que Word supera a Writer es en la conversión de imágenes para el Web. Word conserva la calidad de la imagen, pero Writer parace reducirla. Sin embargo, el código HTML que genera Writer es más legible y estándar que el de Word, lo cual un desarrollador de páginas web apreciaría mucho.
  • El semestre pasado, enero a mayo 2005, utilicé Writer y Draw para redactar dos propuestas para secuencias curriculares en el área de Informática y un prontuario para un curso nuevo. No extrañé a Word para nada. Los documentos los preparé en Writer y los diagramas en Draw. Irónicamente, al final tuve que convertir todos los documentos al formato de Word para que los evaluadores pudieran leerlos ya que no podía suponer que tenían OpenOffice. Writer realizó la conversión impecablemente. Abrí los documentos en Word y no tuve que arreglar nada.
  • La importación, sin embargo, no es tan buena como la exportación. Cuando traigo a Writer documentos preparados en Word que contienen listas enumeradas o un bosquejo, el patrón de la numeración de los ítemes con frecuencia se altera y hay que arreglar el documento.

Todavía no he utilizado la versión de OpenOffice 2.0 porque la 1.1.4 es la última versión estable y la 2.0 es una versión de prueba (beta) , así que no sé si los issues que presenté arriba han sido mejorados o no.

Más artículos como este en:

Algunos artículos relacionados:


Proudly powered by wordpress - Theme by neuro
   *   BloGalaxia  Uni�n de Bloggers Hispanos
adult chat rooms amateur sex chat amateur webcam asian cam black webcam sex cam sex ebony cams girls ebony teen cams free live asian sex free sex teen chat free teen cam girls free xxx web cam hidden blowjob cam hot webcam lesbian live cams live asian girl live lesbian cams live mature cams live milf cams live porn cam live sex webcams live webcam chat porn cam spy cam sex teen webcam free voyeur cam web cam asian girls webcam teen sex xxx hidden cams xxx home cams xxx web cams