HTMLからテキストを抽出

HTMLタグを取り除き、エンティティをデコードしてきれいなプレーンテキストを得ます。

HTML source

Plain text

HTMLからテキストを抽出するには？

HTMLからのテキスト抽出は、タグ・スクリプト・スタイルを取り除き、エンティティをデコードして、読める単語だけを残します。Snabbitはブロック要素を改行に変換するので段落が分かれたまま保たれ、余分な空白を整えて、きれいなプレーンテキストを返します。すべてはブラウザ内で動作するので、貼り付けたマークアップがどこかにアップロードされることはありません。

HTMLからテキストを抽出の使い方

1 HTMLソースを入力ボックスに貼り付けます。
2 タグ・スクリプト・スタイルが自動的に取り除かれます。
3 エンティティがデコードされ、段落が別々の行に保たれます。
4 きれいなプレーンテキストをコピーします。

活用できる場面

保存したWebページから記事のテキストをコピーする。
HTMLメールをプレーンテキストに整理する。
文字数カウントや分析のためにコンテンツを抽出する。
文書にインポートする前にマークアップを取り除く。

よくある質問

リンクや太字タグの中のテキストは保たれますか？

はい。インラインタグは取り除かれますが、その中のテキストは残るので、太字の単語やリンクのラベルがプレーンテキストとして出力に表示されます。

スクリプトとスタイルはどうなりますか？

スクリプトとスタイルのブロックは中身も含めて完全に取り除かれるので、コードやCSSが抽出されたテキストに漏れ出すことはありません。

段落は保たれますか？

段落・リスト項目・見出しなどのブロック要素が改行になるので、結果が1つの長い行ではなく、読みやすい構造を保ちます。

HTMLからテキストを抽出

HTMLからテキストを抽出するには？

HTMLからテキストを抽出の使い方

活用できる場面

よくある質問

関連する検索

関連ツール