Мне нужно преобразовать html-файл в doc. Я использую html2pdf для преобразования PDF.
Существует ли какая-либо библиотека для html2doc?
(PS должен быть свободным / открытым исходным кодом)
РЕДАКТИРОВАТЬ
После комментария Марка Эйриха ..
Вот два скриншота. Документ Word не правильно выровнен. Проверьте y-scroll в текстовом документе. WORD, проверьте y scroll ..
Я попытался настроить его, но никакого эффекта.
EDIT 2
после второго комментария Марк Эйрих, я узнал, что слово принимает вещи в пикселях, а не в возрасте%. У меня последний вопрос на заднем плане .. Любая помощь .. пожалуйста, проверьте два снимка экрана. Разница – внешняя коробка. и thats y html сгенерированный документ выглядит странно.
Ответ ИМО не будет, По следующим причинам:
Документы Microsoft Office чрезвычайно сложны в том, как они разрабатываются, а не только форматированный файл со ссылками на такие объекты, как изображения, в нем есть файловая система типа od, чтобы управлять двоичными данными этих объектов.
Позвольте мне привести цитату из нашего собственного Джоэла:
Если вы начнете читать эти документы, надеясь провести выходные, нажимая какой-нибудь шикарный код, который импортирует документы Word в вашу систему блога, или создает электронные таблицы в формате Excel с вашими личными финансовыми данными, сложность и длина спецификации, вероятно, вылечили вас от этого желание довольно штопать быстро. Обычный программист заключил бы, что форматы двоичных файлов Office:
- сознательно запутываются
- являются результатом безумного разума Борга
- были созданы безумно плохими программистами
- и их невозможно прочитать или создать правильно.
Вы ошибаетесь во всех четырех пунктах ….
Прочтите далее возможное решение:
Если вы действительно хотите создавать фальшивые форматированные документы Word, лучше всего создать документ RTF. Все, что может сделать Word, может быть выражено в RTF, но это текстовый формат, а не двоичный, поэтому вы можете изменить что-то в документе RTF, и он все равно будет работать. Вы можете создать красиво отформатированный документ с заполнителями в Word, сохранить как RTF, а затем с помощью простой замены текста заменить «заполнители» на лету. Теперь у вас есть RTF-документ, который каждая версия Word откроет с радостью.
Некоторые ссылки, которые могут вас заинтересовать в пути:
- Ресурсы:
- XHTML2RTF: инструмент преобразования HTML в RTF на основе XSL
- Word (.doc) Формат двоичного файла
- HTML + CSS для RTF (в PHP)?
Хотя, попробуйте открыть файл слова с помощью winrar;), Возможно, создание архива с определенными заголовками, а затем изменение extenstion будет достаточным, Never Tried
для преобразования в Microsoft Word вам нужен сервер с поддержкой COM (под управлением Windows и Office). Если у вас такой сервер
В противном случае ваш лучший снимок в html2doc – html2rtf, который достигается с помощью библиотеки, например http://paggard.com/projects/rtf.generator/ или http://sourceforge.net/projects/phprtf/ .
Затем, после создания RTF, вы подаете его в браузер с заголовком doc
Если пользователь имеет слово, он будет открыт для обработки файла.
Кроме того, сохранение rtf как документа в порядке, и слово будет открыто в макете без каких-либо жалоб. Вы также можете обслуживать HTML с указанным выше заголовком, но проблема в том, что Word откроется в веб-представлении, и это плохо 🙂
Converteer online gratis uw html- naar doc-bestanden
- Image
- Document
- Ebook
- Audio
- Archive
- Video
- Presentation
- Font
- Vector
- CAD
- abc
- abw
- csv
- dbk
- djvu
- dng
- doc
- docm
- docx
- erf
- ebm
- ewm
- emw
- gzip
- kwd
- odt
- oxps
- ppt
- pptx
- rtf
- rar
- txt
- wps
- xls
- xlsx
- zip
- Image
- Document
- Ebook
- Audio
- Archive
- Video
- Presentation
- Font
- Vector
- CAD
- abc
- abw
- csv
- dbk
- djvu
- dng
- doc
- docm
- docx
- erf
- ebm
- ewm
- emw
- gzip
- kwd
- odt
- oxps
- ppt
- pptx
- rtf
- rar
- txt
- wps
- xls
- xlsx
- zip
HyperText Markup Language
HTML is een Web-formaat bestand. HTML broncode kan worden gewijzigd in een teksteditor. HTML-bestanden worden ontwikkeld voor toekomstig gebruik in de gebruikers webbrowser, zodat u tekst, afbeeldingen en andere materialen die nodig zijn websites te formatteren. Bestand met deze gebruiksvriendelijke indeling tags om webpagina’s te bouwen. HTML code wordt geparseerd webbrowser en gewoonlijk niet zichtbaar voor de gebruiker.
Microsoft Word Document
DOC is een extensie voor tekstverwerking documenten. Het wordt vooral geassocieerd met Microsoft Word-toepassing. DOC-bestanden kunnen ook grafieken en tabellen, video’s, foto’s, geluiden en diagrammen. Het ondersteunt bijna alle besturingssystemen.
Здравствуйте! Встала задача написания онлайн-библиотеки. В качестве сервера обычный хостинг (т.е. не VDS).
Надо средствами PHP (или через API каких-то сервисов) преобразовывать все эти файлы в HTML.
Подскажите, пожалуйста, как это можно организовать? Или есть уже готовые фреймворки/CMS для написания онлайн-библиотеки?
- Вопрос задан более трёх лет назад
- 6144 просмотра
Я думаю имеет смысл просто отображать документы если это возможно. Например:
что до doc — думаю проще будет doc в docx сконвертить.
Из того что я проверял — pdf и epub будут хорошо в браузере рендриться. Остальное не тыкал.
Все вместе сразу не бывает.
С обычного хостинга погонят вас очень скоро, если вы будете такими вещами заниматься. Это очень ресурсоемкие процессы.
Готовые решения для pdf, doc(x) точно есть с остальными не работал.
Но качество обработки очень зависит от того чем вы будете это обрабатывать. Особенно это касается pdf.
И естественно pdf2html не даст текста, скорее всего это будет html со вставками картинок(большая часть книг pdf это сканы)
Для docx например есть PHPWord