この記事の目次
PDFからテキストへ変換する
今回、Webサイトに掲載するテキストの編集をやることになったんですが、いただいたのがPDFファイルだったんで、いったんテキストデータ化することにしました。
最終的な利用目的がWebページなので、できればTypora上で文章を校正して、見出し設定などの構造化、強調その他の装飾までやってしまいまたいと思います。
Typoraには文書変換機能としてPandocを組み込んでありますが、さすがのPandocもPDFを直接読み込んでの編集はできません。
それに、いただいた原稿は見出しなどがないベタ打ちだったんで、すなおにプレーンテキストに変換することにしました。
Webの無料変換サービスを利用する
本家のAdobe Acrobatがあればいいんですが、ふだんPDFの本格的な編集はやっていないので、もっていません。
そこで、ネットで変換ツールを探したんですが、いまではWeb上に変換サービスがいくつかあるんで、そこから検索上位に出てきた3つを試してみます。
- PDFcandy.com
- hipdf.com
- jinapdf.com
基本的な使い方はどこも同じでWebページ上にPDFファイルを追加すると変換を行い、結果をパソコン上にダウンロードします。
またどのサービスも、PDFからテキストへの変換だけでなくOffice文書への変換や画像ファイルからの変換などが可能です。
PDFcandy.com
は、いろんな文書形式の変換ツールを提供しているサイトです。
ツールがありすぎてわかりにくいくらいですが、PDFからテキストへの変換はというページにあります。
中央に大きな「+ファイル追加]ボタンがあり、クリックしてファイルを選択することもできるし、その横にあるボタンでGoogleドライブやDropboxを開くこともできます。
PDFファイルをドロップすると、アップロード>キューに登録>抽出中とメッセージが変わっていきますがこの間は自動です。
変換が終わると完了画面にダウンロードボタンが出るのでクリックして変換したテキストファイルを保存します。
ここでもGoogleドライブとDropBoxが使えます。
複数のPDFを連続して変換したいときは、ひとつ処理したあと[最初からやり直す]ボタンをクリックすれば、前の画面に戻ります。
ちなみに複数のファイルをまとめて処理することはできないので、PDFファイルがたくさんあるときは繰り返し変換することになります。
デスクトップ用のアプリケーションをインストールすればファイル数の制限なしに変換できますが、無料版だと処理できる数に制限があります。
たくさん変換したかったら、有料版を購入しましょう。
hipdf.com
もいろんな変換ができるWebサービスですが、サイトのトップから見る限り種類はPDFcandy.comほど多くありません。
しかし、すべてのツールを表示すると実は意外にたくさんの変換機能を提供しています。
PDFからテキストへの変換はというページにありますが、トップからはちょっと探しにくいようです。
hipdf.comではDropbox、One Drive、Boxの3つのクラウドストレージに対応しています。
ファイルをドロップするとアップロードが始まり、終了したら[変換]をクリックします。
変換が終わったら[ダウンロード]ボタンをクリックして、ファイルを保存します。
ここでもオンラインストレージに対応していますが、ボタンはDropboxとBoxのふたつだけで、One Driveがありません。
続けて変換したいときは右下の[やり直す]をクリックします。
ただし、24時間以内に変換できるファイルは2つだけに制限されています(記述の上ではタスクが2回)。
また、hipdf.comでは複数のファイルをドラッグ&ドロップできますが、実際にアップロードされるファイルはひとつだけです。
ユーザー登録を行うか、デスクトップ版アプリケーションをインストールすればファイル数に関する制限は解除されるようです。
jinapdf.com
でもいろんな変換ができます。
PDF文書からテキストへの変換はというページで行います。
大きな広告が入っているので一瞬迷いますが、[PDFファイルを選択]というボタンがあるのでファイルを登録してください。
オンラインストレージには対応していないようです。
ファイルを指定すると直ちにアップロード~変換が行われるので、途中の操作はありません。
すぐにファイルのダウンロードができます。
jinapdf.comの特徴は、ファイル名が独特なところです。
PDFcandyとhipdfでは元のPDFファイルの名前がデフォルトでしたが、jinapdfでは"converted_xxxxxxxxx.txt"というファイル名がつきます。
もちろん保存するときには好みのファイル名をつけることができますが、ややめんどうな気もします。
連続して変換したいときはダウンロード後に現われる[←別のファイルを変]というボタンをクリックして最初の画面に戻ります。
ファイルのドラッグ&ドロップに対応せず、ダイアログボックスから選択する形式なので、ファイルの一括登録はできません。
変換結果を比べてみた
同じPDFファイルを、3つのサービスで変換した結果を比べてみました。
結果は、PDFcandyとjinapdfはほぼ同じだったのに対し、hipdfだけ大きく違っています。
PDFcandyとjinapdf
- 一文字ずつきれいに認識している
- PDF上の折り返し部分で改行が入っている
hippdf
- 一文字おきに半角スペースが入っている
- 折り返し部分は改行されていない
WinMergeでの比較
PDFcandyとjinapdfの結果はテキストエディタ上ではぱっと見分けが付かないので、専用のテキスト比較ツールWinMergeを使って確認してみました。
結果は、段落の改行で4ヶ所ほど違いが見つかりましたが、ほぼ同じでした。
たまに使うのならWebサービスで充分
見出しも図版も入っていないベタ打ちテキストを変換するだけの極めて簡単なテストでしたが、この結果を見ると、PDFcandyがいちばん扱いやすそうです。
折り返しごとに入っている改行は、文字列置換で簡単に削除できます。
いっぽう、一文字ごとに半角スペースが入っているのは処理がめんどうです。
変換の操作性はどれも似たり寄ったりですが、PDFcandyとhipdfがオンラインストレージ対応なのに対して、jinapdfはローカルPC上のファイルしか扱えないので、そこで差を付けました。
ファイル数個を変換するだけだったら、わざわざ専用ツールをインストールするまでもないと思うので、Web上の変換サービスを活用してください。