docx это имеет XML формат заархивированый через zip. Использовать можно вот это https://github.com/mikemaccana/python-docx. Вот кусок из кода в качестве наглядного примера:
from lib.docx import opendocx, nsprefixes
doc = opendocx(file)
for p in doc.xpath('/w:document/w:body/w:p', namespaces=nsprefixes):
if not bool(p.xpath('w:r/w:t', namespaces=nsprefixes)):
if len(data):
questions_data.append(data)
data = []
else:
data.append(p)
...
Для doc формат, на сколько понял, нужно использовать dll офиса, хз как это работает под линуксом, в общем такой задачи не было.
Updated 6 April 2011, 17:11 by alerion.